

昆仑自研的AI模型(SOTA)就像是“最好的锄头”,正在助力公司开采AIGC领域那片“最肥沃的金矿”。
作者|王艺
编辑|栗子
56.6亿元。
这是昆仑万维(300418.SZ)在2024年年报中公布的营收。
而在紧随其后披露的2025年一季报中,总营收增长46%、海外收入大增56%更是振奋人心。其中AI音乐年化流水收入ARR达到约1,200万美金(月流水收入约100万美金);短剧平台DramaWave年化流水收入ARR达到约1.2亿美金(月流水收入约1000万美金);AI社交报告期内单月最高收入突破100万美元,成为海外收入增长速度最快的中国AI应用之一。
昆仑万维,这家曾经依靠游戏、社交网络和投资获得稳定现金流的公司,正以前所未有的决心和速度,将自己重塑为一家AIGC公司。
从自研“天工”大模型,到AI音乐商用创作平台Mureka、AI搜索、AI社交,再到短剧视频生成产品SkyReels,昆仑万维几乎在泛娱乐领域中有前景的AIGC应用都布下重兵。
此外,昆仑万维还在Q1季报中披露,将于2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai,提供全球首个开源的Deep Research Agent框架,并开放重磅MCP供开发者调用;而昆仑万维的AI芯片也将在年内流片。
在2025年一季度财报发布后,我们与昆仑万维董事长兼CEO方汉进行了一场深入对话。他坦白讲述了昆仑万维如何通过AI音乐、视频等多个赛道的布局占领海外文娱市场高地。
在他看来,昆仑自研的AI模型(SOTA)就像是“最好的锄头”,正在助力公司开采AIGC领域那片“最肥沃的金矿”。但是,掘金并不容易——技术扩张与商业利益的拉锯之中,昆仑万维眼下仍在寻找那个“最终胜负手”。
在全球AI娱乐内容战局的初期布局之争中,方汉带领的昆仑万维,正站在一个微妙的节点上,以一份极致的信仰,试图证明自己能够率先迈过技术、市场和人心之山。
1.谈产品:音频和图像技术已经达到了AIGC商业化的拐点,但视频还没有

甲子光年:Mureka可以算作是昆仑万维的王牌产品了,这次年报显示Mureka流水收入ARR达到约1200万美金、月流水收入约100万美金,Mureka从研发到商业化的关键路径是怎样的?它在AI生成音乐方面的技术优势如何转化为用户付费和收入增长?
方汉:从2020年开始,昆仑万维就开始进行Mureka的模型和产品研发。从技术层面,我们的模型经历了从符号化生成,到Diffusion生成,到Diffusion Transformer生成,再到最近的Music CoT思维链生成,进行了四次重大的技术转型,这些技术积累构成了我们的产品基础。最终随着Music CoT技术的发展,我们的产品效果也做到了全球领先水平。
对比此前风靡全球的其他产品来说,我们从落后到超越的过程对我触动很大。坦白说过去我们的效果确实并不理想,所以在一些英语国家,我们的用户口碑在逐渐逆转,这需要一个积累过程。但在一些对手尚未覆盖的地区,我们产品的增长非常迅速。
音乐生成工具的潜力远不止于此。关键在于转变从业者的心态。在中国,存在一种演员的鄙视链:拍电影的看不起拍电视剧的,拍电视剧的看不起拍网剧的,拍网剧的看不起拍短剧的,拍短剧的看不起拍广告的。这种鄙视链在音乐领域同样存在。
许多音乐人认为手写乐曲才具有灵魂,而AI创作的则被认为缺乏灵魂。但事实上今天的音乐创作已经跟过去完全不同了。
在今天没有音乐人不使用DMW(Digital Music Workstation)对每段音频进行精细调音。很多时候我们看一些歌手的“翻车”视频,去掉调音之后,你会发现他们唱歌并不好听。这也说明,当前的创作者已经广泛采用计算机工具辅助创作。我认为,让他们接受AI创作只是时间问题。
另外,音乐的下游产业更可能接纳新技术。因为AI音乐领域看似很窄,却是许多行业不可或缺的部分。例如影视作品、游戏、广告等都需要音乐。以前他们只能硬着头皮支付高昂的音乐费用。但现在这些下游产业将会从我们的音乐生产模型中受益。
从下游产业逐渐延伸到上游产业,最终影响行业最顶级的流行音乐。最后的标志性事件是看AI音乐何时能够进入全球流行音乐排行榜的前100名、前十名,甚至第一名。这必然会成为AI音乐被整个音乐界接受,成为音乐界的一部分。
人心中的偏见是一座山。AI音乐不是技术力和产品力不够,而是要扭转人心中像山一样的偏见。
甲子光年:昆仑万维的AI短剧平台SkyReels所推出的开源模型获得开发者好评,但行业也有一种声音是AI生成的视频“缺乏真实感”,导致商业化进展缓慢。这是不是意味着技术指标领先≠用户体验达标?
方汉:从量变到质变是有拐点的。达到这个拐点后,用户才会认为产品完全可用。在我看来,音频和图像技术的拐点已经达到了,但视频技术尚未达到这一拐点。文本在某些领域也仍未达到这一拐点。
坦白说,我们很难给出一个“拐点何时到来”的准确预测。我们能做的就是在算法上持续迭代,不断尝试。
技术进步是持续的。比如最早电影使用胶片拍摄,随后逐渐演变为数码技术,单是摄像机就发展到上亿像素级别。还有从最初的绿幕抠图到现在的3D背景等等。
你会发现,传统技术的发展变革是以十年为单位的。而现在视频生成模型,它们的发展是以月或季度为单位的。这表明视频模型的迭代速度远超过传统拍摄技术的更新速度。
我们能够判断的是,未来1-2年或者更长时间,技术的发展一定会更进一步。但对于AGI的未来何时到来,现阶段我们确实没办法预测,因为存在太多未知因素。
甲子光年:昆仑万维2月份发了面向短剧创作的开源视频生成模型SkyReels-V1,前两天又发布了SkyReels-V2,V2相较于V1有哪些迭代?
方汉:V2最大的突破是解决了视频生成长度的问题——现在能一口气生成四五十秒、甚至更长时间的带完整故事线的视频。对用户来说,这意义重大。
过去他们得自己剪一堆5秒、10秒的片段,还得把上一段结尾的画面拼到下一段开头,操作特别麻烦。现在直接出一个40、50秒甚至时间更长的成品,广告和短剧这两大场景的需求基本都能覆盖。所以我们觉得必须尽快上线,让用户早点用上这种“丝滑”体验。
我觉得做AI产品的关键还是从用户痛点倒推技术迭代。比如SkyReels-V1,核心优势在表演数据——我们喂进去了33种人类表情数据、300多种动作数据,相当于给AI上了“表演特训班”。
打个比方,别的通用视频模型像综合大学,什么专业都有,但表演课水平一般;我们这模型就像北电、中戏的科班生,专攻“演戏”,生成的人物动作表情自然更细腻、更有感染力。
甲子光年:强如Character.ai,其最好的宿命也是卖给Google。你如何思考AI社交产品的生命周期?这是只有大厂或上市公司才有实力玩的游戏吗?
方汉:首先,我认为目前的产品还远没有达到它的最终形态。
举个最简单的例子。在游戏领域,国外最赚钱的IP是《魔兽世界》,中国最赚钱的IP是《梦幻西游》。但这两款游戏的原型其实都是源自一种开源的文字冒险游戏——MUD。这种产品的演进过程非常重要。

经典文字MUD游戏《我的江湖》,图源:网络
从最早的很简陋的文字聊天的这种战斗形式,演化到今天的《魔兽世界》和《梦幻西游》,今天的产品商业化已非常成熟。所以对比之下,目前AI聊天的产品演化过程还远未达到顶峰。当前的商业化和产品化程度还处于初级阶段,迭代也远未达到终极形态。因此,我认为不能简单地将其视为已经发展到了终极形态。
甲子光年:Pleias的联合创始人Alexander Doria最近针对 DeepResearch、Agent 以及Claude Sonnet 3.7发表了两篇文章,他认为未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow),你同意这个观点吗?
方汉:部分认同,部分不认同。
我的论点基于历史视角。以操作系统为例。最初的操作系统内部包含一些基础工具,比如画图板、笔记本等等。但它最后也还会推出专门的Office软件。
操作系统本身的重要性不言而喻,但操作系统中是否应包含所有应用软件呢?我认为这取决于我们的大模型本身的能力边界,以及它是否需要工作流来辅助完成任务。
从用户的角度来看,他们并不太关心是使用工作流还是大模型,他们只关心能否得到最佳的输出结果指标。因此,我认为用户对此并不太在意,但AI厂商可能更加关注这个问题,毕竟涉及自身利益。
我们观察到,对于商业用户而言,确定性和满足特定行业和领域工作的能力至关重要。因此,我认为工作流不会消亡。尽管大型模型能够处理很多工作,但商业用户更需要的是确定性和稳定性并重的工作流程。这是我观察到的现象,但未必是最终结果。
甲子光年:当前市场上的许多AI产品在用户的新鲜感褪去后往往难以维持吸引力,导致大家认为AI产品价值较低。你觉得做AI产品怎么才能构建用户的长期价值?
方汉:B端用户的核心诉求就两点——要么降成本,要么提效率。怎么做到?技术上得硬核,指标必须保持全球领先。无论是音乐生成还是短剧模型,用户用你的工具能省钱、能更快出活儿,这才是长期粘性的关键。
怎么保证技术领先?算法迭代是基本功,但更关键的是行业数据垄断。比如我们攒了海量音乐版权库、短剧演员的微表情和动作数据,这些独家“弹药”才是护城河。数据越厚,模型越聪明,用户越离不开——“用别人家的工具,根本出不了这效果”。
C端逻辑更简单粗暴。第一关是本地化:用户只爱看母语内容。你做个西班牙语短剧,台词翻译味儿太重?用户立马划走。所以得从台词、文化梗到演员长相,全都“本土特供”。
第二关是内容供给爆炸。用户要的不是“怎么做的”,而是“没见过的”。比如短剧这种新形态,全球还在红利期,但产量远远不够——中国年产1万部,海外才3000部。如果能把供给拉到每年几百万部,什么小众需求都能喂饱。就像短视频,当初谁能想到“修驴蹄子”和“赶海”也能千万播放?内容池够大,长尾里才能捞出金子。
2.谈商业:“及时满足”永远不够

甲子光年:昆仑万维从去年到今年发布了很多模型,从Skywork 4o到Skywork o1、到Skywork-Reward、再到Matrix-Zero世界模型、音乐推理大模型Mureka O1与Mureka V6、SkyReels-V1、V2,昆仑万维做模型的逻辑是一个领域布局一个模型,还是有一个总体平台的逻辑?
方汉:我们首先得明确,在内容赛道上,皇冠一定是属于视频的。
为什么?因为视频是文盲也能看的东西——全球80亿人里,视频用户覆盖最广。相比之下,小说、漫画这类文本内容,你得识字才能消费,用户群体可能就十几亿、二十几亿的量级。音乐用户规模更大些,可能有40亿到50亿人。但归根结底,我们所有的布局都是围绕视频赛道展开的,这是最大的市场。
视频赛道具体指什么?传统的影视剧、短剧,甚至未来的电影,都依赖于一系列底层技术:图像生成、音乐音效生成、语音生成……这些技术我们都在同步推进。所以你会看到,昆仑万维做的音乐模型、短剧模型,本质上都是为最终的视频生成平台服务的。
打个比方,我们眼前有一座储量惊人的金矿(视频市场),但开采难度极高。这时候怎么办?我们先造最好的“挖矿工具”——比如音乐模型是“发电机”,短剧模型是“筛选机”,这些工具本身就能创造价值。但最终目标一定是亲自去挖那座最肥的金矿。这“金矿”是什么?就是直接面向C端用户的视频平台。
现阶段,我们聚焦于技术积累和短期商业闭环,比如用AI生成短剧和音乐。但卖工具只是第一步,真正的野心是成为金矿的主人。
甲子光年:AIGC业务更侧重B端市场还是C端市场?
方汉:AIGC的创作工具一定是面向广大内容制作者的,这个就是所谓的B端,以API的付费模式为主,Mureka和SkyReels已经在很成熟地开展业务了。生态和内容在渠道上发行,B端盈利比较好,增长稳健,而C端市场的上限高。
甲子光年:你一直在强调昆仑万维会做好付费赛道,坚持盈利。你如何看待这些AIGC产品未来的盈利预期?
方汉:尽管现阶段亏损,但对于这些产品的盈利,我们是坚决看好的,因为它的市场规模足够庞大。
现在最明显的趋势是,用户正在用脚投票。比如新用户选择AI陪伴或者AI娱乐服务,相比传统产品(例如短剧对比网剧)是要便宜很多的。因为新的产品形态能为用户带来大量的购买红利。
过去,像Facebook、谷歌和其他广告平台准确地计算了各行业的利润空间,但在AIGC领域暂时还没有平台能够准确计算它的利润空间到底是多少。所以在这种情况下,产品是存在“买量红利期”的。要想抓住这波机会,必须投入资金来吸引更多的用户。随着行业利润率趋于稳定,谁的产品用户量最大,就必然会是赚的最多的那一家。
当然,要实现全面盈利,我们需要考虑前期较高的算法和市场投入。今年,我们仍处于通过跑马圈地获取用户的关键阶段。我认为到2026年,昆仑万维可以实现全面盈利。
甲子光年:你多次提到“全球范围内的文化平权”,认为所有的AIGC技术本质上就是降低每个人创作内容的门槛,它必然会导致创作者规模的持续扩大和创作内容数量的持续扩大。但是我们真的需要这么多的内容吗?
方汉:“即时满足”永远不够。这是我的观点。
以抖音的推荐算法为例,它每13秒向用户推送一个视频,让用户享受十几秒的快了,这是它的核心理念。但你会发现,用户在刷到一定程度后往往失去兴趣,为什么呢?因为它总是根据用户的喜好来推送内容。
人的基因决定了我们不愿意看重复性的东西。这与我们祖先的生存策略有关,当我们在同一个地方过度消耗资源,比如频繁去同一地点喝水,有可能被野兽发现并吃掉。因此,我们需要变换地点去寻找水源和食物以生存。这正是人类基因的体现。
回到我们刚刚说的内容。平台不断更新新鲜内容,但当它的内容库耗尽时,用户就可能发现自己观看到了重复的内容。比如刷抖音时,用户最初可能会花费四五个小时,但随着内容的不断重复,这一时间逐渐减少到一两个小时。
这表明,尽管内容供给持续更新,对于广大用户而言,“即时满足”始终是不足的。
更重要的是,一些真正高质量的内容是极其稀缺的。以短剧为例,中国每年生产1亿部短剧,但真正能吸引观众的可能只有100万部,这是远远不够的。因为那1亿部大多数是小型作品,它们组成了一个庞大的金字塔,而金字塔顶端的,始终是那少数几部超级爆款作品。
然而问题在于,这些爆款作品并不能满足整个市场的用户需求。因为用户需求是多样的,有人想看二次元,有人想看宫斗。这种长尾需求,如果不依靠一个海量的内容基础来堆积,是不会出现好内容的。所以我反而认为,现在的内容供给投入始终是不足的。
对比内容量的增多,我反而认为“内容的碎片化”是一个问题。被短视频培育之后,现在绝大多数用户都没有耐心去看长剧了。这就像日本漫画取代报纸一样,没有人有耐心看那些长篇小说,这种转变是自然发生的。但我认为“即时满足”永远不够。
甲子光年:你说Mureka平替的是数字音乐工作站,那么仅仅是数字音乐工作站的市场规模,能支撑的起Mureka的商业野望吗?
方汉:目前数字音乐工作站(DMW,Digital Music Workstation)的市场规模接近40亿美元,到2037年会增长超过90亿美元。这个数字看似不大,但它所支撑的是整个音乐行业上千亿的市场规模。
在我们的判断中,DMW市场一定会被AIGC大力冲击。因为AIGC大量降低了内容的生产成本,销售规模也在逐步扩大,薄利多销。比如汽车刚刚在国内问世时候,很多人买不起十几万一辆的新车,就去花几万块买二手车。但现在新能源汽车之后,大家都倾向于买新车。实际上汽车的普及,也是在福特把汽车的价格打下去之后,才出现了整个市场规模的扩大。
音乐产业同样如此。一旦我们降低制作成本,整个音乐市场的规模将会扩大,因为下游众多行业对音乐都有着巨大的需求。还是以短剧为例,我预测短剧行业会从年产一万部到年产百万部。而这百万部短剧都是需要音乐的,所以新的市场空间仍然是充足的。
甲子光年:如果昆仑万维的短剧布局思路是“卖锄头+挖金矿”,通过开源生态培育创作者,再用自家分发渠道完成流量变现,那如何解决内容质量的问题?
方汉:短剧内容质量差是因为作者做的不好。为什么做的不好?是因为“讲故事的人不会讲故事”。
在我看来,这个问题归根结底,还是现在短剧的规模仍然不够大,导致短剧的编剧群体规模不足。现在短剧编剧只能提供年产1万部短剧的能力。如果生产规模扩大到年产100万部,那么对编剧数量的需求也会增多。在这种情况下,我认为限制AI短剧发展的不是资源,而是编剧的数量。
当然,编剧数量不足这个问题也正在得到缓解。随着短剧赛道大量用户红利和商业红利涌入,加之制作门槛和规模的降低 ,将会有更多中小企业进入这一赛道。
目前短剧的问题在于,由于预算有限,导致无法产出高质量的内容。然而,随着AI技术的发展,以100万的成本制作的内容能够达到《流浪地球》3个亿的效果,这种情况下,还有谁会质疑短视频的吸引力呢?
因此,技术进步仍然是关键,它持续推动着短剧质量的提升和创作者规模的扩大。
甲子光年:当所有短剧都充斥着AI化的“黄金3秒开头”,如何解决可能出现的用户倦怠问题?
方汉:当然,可能很多人会提到内容的同质化。但这其实在全球范围内都存在的问题。内容跟风比比皆是,美国的好莱坞同样如此,真正能够取得全球最高票房的导演,只有那么几个人。但这也是建立在大量积累的基础之上。
就像网文一样。目前中国的网文规模要远超于传统的严肃文学。但也正因此,网文作者中出现了一批顶尖作者,我认为这些网络文学的顶尖作者并不比严肃文学的作者做得差。所谓沙里淘金。首先,必须收集一大堆沙子,然后才能淘出金子。
甲子光年:昆仑万维开源了SkyReels-A1和中国首个面向AI短剧创作的视频生成模型SkyReels-V1,选择开源核心技术的战略考量是什么?
方汉:我认为最关键的一点是,我们的用户群体主要是B端用户,他们有独特的市场需求。
以文生图为例。目前市场上有很多文生图产品。我认识一家企业专门训练了一个小型的文生图模型,提供给一批做美甲的客户,用这个模型生成各种美甲图案。但如果你用传统的文生图模型,是没办法生成如此垂直细分的产品的。所以他们基于开源模型训练了一个专门做美甲图案的模型。这就满足了特定用户群体的需求。
视频生成领域同样存在这样的需求。很多时候一个产品需求的收集要依赖产品经理。但产品经理无法预知用户所有需求,也不可能总有朋友恰好给产品经理拍摄了奇特的视频。因此,只有在我们开源并将其置于社区中时,那些缺乏技术能力的用户才会提出他们的需求。有人可能会提出想要制作专门拍摄机甲格斗视频的需求,但其他人可能不需要。通过这种方式,我们可以判断出哪些需求是用户最迫切的。
而在这样一个不断开源的过程中,既满足了细分用户的长尾需求,又在无形之中构建了良好的开源模型生态。
对于商业用户而言,易用性并不是最重要的,确定性、重复性和满足特定场景的需求才是关键。只要能满足这些需求,他们就会持续使用。核心需求往往是用户留在这个平台上的最关键因素。开源软件在这方面与需求完美契合,没有一个商业产品能够满足所有开发需求,这是开源软件能够生存至今的重要原因。
3.谈定位:内容创作赛道领先的AI公司

甲子光年:你曾提到“中国AI人才优势”,但高端人才(如强化学习专家)仍依赖海外回流。昆仑万维如何构建可持续的人才梯队?
方汉:关于高端AI人才,我必须指出,这绝不仅仅关乎个人的成就,而是关乎整个中华民族的繁荣昌盛。
高端的AI人才,比如那些从谷歌等公司离职后回国的,属于高端人才,这样的人非常稀少。目前,大多数的人才还是依靠本土培养。
首先,我们在开源领域和模型领域具备全球领先的优势,这是吸引人才的根本原因。其次,提供具有竞争力的薪资和待遇也是吸引人才的关键。第三是公司整体的氛围。
作为一家中型企业,我们从领导层到管理层,再到研发算法工程师,不论资历如何,每个人都有平等的发展机会,这种机制对许多追求公平竞争的人来说颇具吸引力。
在AI时代,由于技术平权,对比互联网时代,大厂的竞争力其实是在下降的。像我们在音乐领域能够做到第一,这在移动互联网时代是不可想象的。
甲子光年:站在当前时间点,你认为未来3-5年,AGI和AIGC领域最值得关注的技术或应用趋势是什么?昆仑万维将如何把握这些趋势,持续巩固和提升在AI行业的领先地位?
方汉:从过去互联网和移动互联网时代的经验来看,内容和娱乐是两个最大的赛道,跑出了字节跳动和腾讯这两家巨头。电商和O2O也是两个重要的赛道,也出现了阿里巴巴和美团。
尽管电商和O2O也和我们的生活息息相关,但从实际情况来看,它似乎还是没有内容和娱乐这两个赛道那么稳。比如电商市场在阿里和京东两大巨头的情况下,还是跑出了拼多多。现在美团和京东在外卖上的短兵相接,似乎也在动摇美团的根基。但如果你问我,谁能够撼动字节和腾讯的市场地位,现在可能还没有看到。
昆仑万维的公司使命、愿景和价值观是实现通用人工智能,以帮助每个人更好地塑造和表达自我。我们始终坚信,虽然人工智能的发现和终极目标是伟大的,但对每个人而言,AIGC更有可能改变生活。
尽管现在视频生成技术指标可能还未达到完全可用的程度。但可能在1-2年内,最晚也可能在3-5年内。我们认为,在整个内容创作领域中,AI将占据重要位置。
我们希望是,昆仑万维在内容创作领域成为领先的AI公司。

(文:甲子光年)