现在全世界最好的开源模型,是 Kimi、DeepSeek 和 Qwen

关于 Kimi K2 的讨论还在发酵。

Anthropic 的联创 Jack Clark 今天发文,称 K2 是一个伟大的模型,这似乎成为中国开源 SOTA 模型发布的标配。

LMArena,这个由数千位开发者盲测评选的榜单上,来自中国的开源模型占据前三,分别是 Kimi K2、DeepSeek R1 和 Qwen 3,Kimi K2 也成为全球最强的开源模型。

我们在这个时间点回看 K2 的发布,它在全球范围内取得的影响力,以及,也许是时候重新理解一下基模公司,在当下最重要的指标是什么?


超 9000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

LMArena 竞技场第一开源模型

发布即开源,聚焦在 Agentic 和 Coding 能力,K2 的模型能力得到了国外技术社区的认可,第三方 token 调用量持续飙升,已经是目前开源模型里仅次于 DeepSeek 的热门模型。

Hugging Face 上,K2 发布后就迅速成为 HF 上的热门模型第一名,目前已经持续了超过一周。

在 7 月 11 日发布后,目前基于 K2 的 fine-tune 和量化模型已经有 20 个,下载量超过 14 万,远超 4 月份发布的 Llama-4-Maverick-17B-128E-Instruct,甚至要追上 5 月初发布的 Qwen3-235B-A22B 了。作为 1T 参数的超大参数模型,还是得到了开源社区的认可的。

然后是大家所熟知的 LMArena 社区。

可以看到,最新的竞技场(Imarena.ai )排名,Kimi K2 排名第五,前四分别是 Gemini 2.5、o3、4o、GPT-4.5 以及 Grok 4,均是目前旗舰的闭源模型。K2 已经超越了 DeepSeek R1,成为目前竞技场评分第一的开源模型,也算是接过了 DeepSeek 的接力棒,带领中国开源战队继续在国际上领跑。

Imarena.ai 基于用户在真实用例下对于 LLM 的评分,收集到的是真实的用户反馈和评分,相比其他数据集评测的方式,Imarena 的打分方式也最能反映真实场景下用户的使用感受。

K2 发布后第 3 天,知名 AI 搜索产品 Perplexity CEO Aravind Srinivas 就宣布基于 K2 进行 post-train,作为 Perplexity 的模型使用。在此之前,非推理模型只有 Llama 3.3 有此待遇。

AI Coding 软件也在用脚投票,目前 VS Code、Cline、Cursor 等均已官方接入 K2 模型,尤其是在 Cursor 对大陆地区封锁 Claude 和 Gemini 模型的使用权限后,K2 无疑是很好的替代。

作为热门的大模型 API 聚合平台,OpenRouter 上的模型调用量排行榜是一个很好的模型热度参考对象。K2 发布后,迅速超越 Grok 4,目前在周使用量排行榜中排第十,锋芒初露。


02 

硅谷怎么看 K2:

下一个 DeepSeek 时刻

硅谷的不少科技媒体,将 K2 的此次发布,比喻成「下一个 DeepSeek 时刻」。

Anthropic Co-founder Jack Clark 在其个人专栏 Import AI 中,认为 K2 是目前全球最佳的开源权重模型。

全球最佳开源权重模型再次由中国制造:中国初创企业 Moonshot 通过开放权重发布了 Kimi K2——一个大规模 MoE 模型。K2 是目前最强大的开放权重模型,其表现轻松超越 DeepSeek、Qwen 等主流开放权重模型,性能接近 Anthropic 等西方前沿公司的顶级模型。

Kimi K2 的表现似乎足够出色,我预计政策圈将出现不妙,又一个 DeepSeek的担忧。在我看来,Kimi 像是个落后美国前沿技术几个月的优质模型,重现了我们曾在 DeepSeek 身上看到的模式。其编程和工具使用得分足够亮眼,预计会有实际应用场景,因此观察其采用率能帮助我们评估竞争力。

Exponential View 认为 K2 是中国 AI 模型技术的「东方红一号时刻」。

在当今 AI 领域,DeepSeek 扮演着类似斯普特尼克的角色——正如我们在 2024 年 12 月所称的那样——这个出人意料强大的中国开源模型,展现出了重大技术突破。如今,AI 迎来了自己的东方一号时刻。中国初创企业月之暗面推出的 Kimi K2 模型兼具低成本、高性能与开源特性。对美国 AI 公司而言,技术前沿已不再是他们独享的疆域。

Kimi K2 在训练端再次展现了绝技:MuonClip 优化器能完美控制梯度,使得万亿参数的 MoE 模型在处理 15.5 万亿 token 时未出现任何损失峰值,同时所用 FLOPs 仅为 AdamW 的一半。两项真正的算法突破相隔六个月相继问世,且都以宽松许可证发布,已将效率创新的重心从帕洛阿尔托转移到了北京。

Nature 官网:又一个 DeepSeek 时刻!

开放平台 Hugging Face 的 AI 研究员 Adina Yakefu 表示:社区可以自由使用它、微调它并在此基础上构建,而无需从头开始训练自己的模型。」Hugging Face 数据显示,Kimi K2 发布仅一天后,其下载量就超过了平台上任何其他模型。Yakefu 称这次发布是「又一个DeepSeek 时刻

艾伦人工智能研究所的研究员 Nathan Lambert 在其知名 AI 博客 Interconnects 上发文宣称,K2 是中国开源模型「Deepseek 时刻」的常态化标志,西方在开源模型领域正进一步落后。

西方研究实验室与中国同行在领先开源模型之间的差距正在不断扩大。美国公司发布的最佳开源模型或许是 Llama-4-Maverick?而中国已有三家机构推出了明显更实用且许可更宽松的模型:深度求索(DeepSeek)、月之暗面(Moonshot AI)和通义千问(Qwen)。

很明显,在 Llama 4 发布遇冷、未能达到行业内的期待,Llama 5 传言可能不再开源之后,以 DeepSeek、Qwen 和 Kimi 为代表的中国开源模型的三驾马车,正引领着开源模型的新方向。


03 

模型公司开源的价值是什么?

在我们之前转载的 Kimi 员工复盘 K2 的文章里,提到了 DeepSeek 走红对于 Kimi 的影响:

「年初 DeepSeek-R1 暴涨之后,很多人说 kimi 是不是不行了,你们是不是恨死 DeepSeek 了?恰恰相反,不少同事都认为 DeepSeek-R1 的爆火是个大好事, 它证明了硬实力就是最好的推广,只要模型做的好,就会获得市场认可;他证明了那条我们相信的路不仅能走通,而且是一条康庄大道。 唯一的遗憾就是:这条路不是我们走通的。」

在 DeepSeek 之前,模型开源的价值其实很难讲清楚,它是一些无法量化的,甚至社区、品牌的价值,这些都很难转化成投资人认可的商业价值。

当然 DeepSeek 的爆火也没有带来什么商业价值,但却带来了很多意料之外的收获,尤其对于中国的大模型行业来说,是一个关键的转折点。

从那之后,Qwen 3 和刚刚发布的 Kimi K2,先后都在开源模型领域取得 SOTA 的成绩,如今,Llama 已经不再选择开源路线,全球范围内最好的开源模型,Kimi、DeepSeek、Qwen,已经全都是来自中国的模型。

开源不仅是一种策略,更是一种持续迭代、快速反馈的打法。对基模创业公司来说,开源像一道双赢的门槛:一方面让更多开发者和用户参与进来,推动模型快速完善;另一方面,也给公司带来了来自社区的认可和资源支持。

对于需要开源模型的大量开发者而言,不论中、美还是其他国家地区的公司机构,最优选择都是中国的开源模型。这样的需求给模型公司提供了一条新的路径,在资源有限、前沿模型很难超越 OpenAI 和 Anthropic 等厂商的当下,做出最好的开源模型就有机会留在牌桌上。

而这样通过开源满足的市场需求,也让市场意识到,对模型公司而言,DAU 是一个不合时宜的标准,ARR 又是一个注水严重,且在国内未必能行得通的指标,模型公司的路径,至少目前为止还不能对标到互联网产品公司的标准上。

在目前大模型的商业化还没有完全落地的情况下,对于国内的基模创业公司来说,开源,或许不仅仅是留在场上的一种可选模式,而是一种必选模式了。

月之暗面的 infra 负责人许欣然,在跟我们聊 K2 的开源策略时说:

「你得留在场上,而现在留在场上的唯一方法就是证明你的技术够好。越开源,别人其实会越 follow 的东西,对来说成本反而低。会有大量的人在我们的基础上做了好多东西,包括帮我们做模型量化什么的。其实开源的好处在这,公司可以更专注去快速迭代下一个模型。




(文:Founder Park)

发表评论