杨植麟合写的技术报告来了!Kimi K2也是作者,还拿了24项开源SOTA

Kimi K2 32页技术报告发布!
作者 |  陈骏达
编辑 |  云鹏
智东西7月22日报道,今天,月之暗面公布了其最新旗舰模型Kimi K2的完整技术报告。作为一款国产开源万亿参数大模型,Kimi K2在发布之后迅速爆火,并在大模型竞技场上接替新版DeepSeek-R1,登顶全球开源模型榜首
技术报告透露,Kimi K2在15.5万亿token上进行了训练。为实现这一量级的训练,月之暗面设计了MuonClip优化器,从而解决了大模型训练中常见的注意力爆炸与损失尖峰问题,提升了预训练的稳定性和token利用率。数据方面,月之暗面打造了一条改写流水线,让模型扩增高质量token的总量。
在后训练阶段,Kimi K2合成了涵盖数万工具与任务的多轮交互数据用于训练,再进入强化学习阶段,让模型在真实与合成环境中不断试错、反思与进化。这一训练过程让K2能在不开启思维链的前提下,于多项基准测试中获得超越顶尖开源模型,比肩头部闭源模型的成绩。
具体来看,在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2的表现超过了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基准测试中略逊于Claude 4 Opus、OpenAI GPT-4.1等模型。基准测试结果显示,Kimi-K2一共获得了14项全球SOTA,24项开源模型SOTA。
在这份32页技术报告的末尾,月之暗面创始人兼CEO杨植麟出现在作者清单中,更令人意外的是,Kimi K2也被列入了技术报告的作者之列。

技术报告链接:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

01.
大模型智能步入新阶段
数据效率成提升瓶颈


月之暗面在技术报告中提出,大模型正在从被动模仿人类文本转向Agentic Intelligence阶段,模型逐渐具备了在复杂、动态的环境中自主感知、规划、推理并行动的能力。
这一转变意味着模型不再局限于静态的人类标注数据,而是通过与环境的持续交互,主动习得超出训练分布的新技能,并依据经验不断调整行为。
然而,Agentic Intelligence给预训练和后训练阶段都带来了一定的挑战。
预训练阶段,研究者必须在高质量数据日益稀缺的条件下,为模型注入足够通用的先验知识,因此token效率(每个 token 带来的学习信号)成为决定规模法则的关键因素。
在后训练阶段,研究者则需要把这些知识转化为可执行的行为,而多步推理、长期规划、工具调用等智能体能力在自然数据中稀缺且昂贵。
因此,业界亟需能够大规模合成结构化、高质量智能体轨迹的系统,并辅以融合偏好与自我批判的通用强化学习框架,弥补静态对齐与开放环境之间的差异。

02.
提出MuonClip优化器
通过改写扩充高质量数据


针对上述问题,月之暗面首先在预训练阶段采用高效的Muon优化器进行训练,该优化器具备高效率、权重衰减少等优势。
Muon优化器由海外AI学者Keller Jordan(现已加入OpenAI)提出,月之暗面曾在今年2月对其进行改进并开源。后者在实验中发现,在相同计算预算和模型规模下,Muon显著优于AdamW等经典优化器,是提升大模型训练token利用效率的理想选择。
不过,Muon在扩大规模时暴露出训练不稳定的问题,特别是注意力logits爆炸现象,注意力得分(logits)会在训练过程中无限增大,导致各种后续问题。
月之暗面进一步提出了权重裁剪机制QK-Clip,能在每次参数更新后,根据当前批次中每个注意力头的最大logit值,动态缩放Query和Key的投影权重。
最终,该团队将Muon、权重衰减、RMS匹配与QK-Clip集成,形成统一优化器MuonClip。实验数据表明,加入QK-Clip的训练损失曲线平滑,无损失尖峰(下图右侧)。
预训练数据方面,月之暗面引入了一套合成数据生成策略以提高token效用。具体而言,该团队设计了一条改写流水线,可在不明显过拟合的前提下,扩增高质量token的总量。
例如,在知识型数据上,为提升高质量知识token的效用,月之暗面向模型提供了风格与视角多样的提示词,引导大模型以不同风格、从不同视角对原文进行忠实改写。同时,为保持长文档的全局连贯性并避免信息丢失,模型采用按块自回归重写策略。
在训练前,团队还会通过语义对齐检查确保改写片段与原文内容一致,作为初步质控。
为了强化数学推理能力,月之暗面把高质量数学文档改写成“学习笔记”风格,并通过将其他语言的高质量数学资料翻译成英文来进一步扩大数据多样性。
最终,Kimi K2一共使用了15.5 T token的预训练语料 ,涵盖Web文本、代码、数学、知识四大领域,且全部经过正确性与质量验证。
模型架构方面,Kimi K2整体架构与DeepSeek-V3相似,采用多头隐式注意力(MLA)作为注意力机制。月之暗面发现,在保持激活参数量不变的前提下,继续提高稀疏度仍能显著降低损失,因此把专家总数从DeepSeek-V3的256提升到384;同时为了减少推理开销,将注意力头数从128降至64。下图是Kimi K2与DeepSeek-V3的核心结构对比。
Kimi K2在英伟达H800 GPU集群完成了训练,并使用了统一并行配置、通信优化等策略,但并未披露集群规模。

03.
为工具调用打造海量数据
模型获14项全球SOTA


Kimi K2的后训练由两个核心阶段组成。
在有监督微调阶段,Kimi K2依旧使用了Muon优化器,并构建了一个覆盖多领域的大规模指令微调数据集,重点是提示词多样性和响应质量。这些数据使用了K1.5及其他领域专家模型生成候选回答,再由大模型或人工进行质量评估与过滤。
月之暗面特别工具使用(Tool Use)能力构建了一个大规模Agentic数据合成流水线,整合3000+真实MCP工具和2万+合成工具,生成数千个不同能力组合的智能体与配套任务。
紧接着,该团队模拟多轮交互,并过滤出高质量的智能体轨迹,然后在代码/软件工程等场景中,使用真实执行环境提升数据真实性。
强化学习阶段,月之暗面的目标是在可验证奖励任务与主观偏好任务中提升模型能力。
在可验证的任务上,该团队打造了一个可验证奖励的“训练场”,用于提升模型在数学、STEM、逻辑任务、复杂指令遵循、编程等领域的能力。
针对无明确答案的任务(如创意写作、开放问答),月之暗面引入了模型自评机制,让模型通过对比自身输出并打分。
RL算法优化方面,月之暗面限制了每任务最大token数,避免冗长输出,并利用PTX损失函数防止模型在训练过程中遗忘高价值数据。该团队还在后训练阶段逐步降低模型的temperature,从而降低随机性,确保模型输出的可靠性和一致性。
后训练阶段,月之暗面还对训练基础设施进行了针对性设计,采用协同架构,将训练和推理引擎部署在同一节点,动态分配GPU资源以提升效率。针对长周期任务,该团队采用并行Rollout和分段执行优化GPU利用率,并通过标准化接口支持多样化环境,实现高效的大规模RL训练。
基准测试的结果印证了上述训练流程的效果。

在编程领域,Kimi-K2-Instruct在SWE-bench Verified和LiveCodeBench v6的成绩与商业模型的差距进一步缩小,在真实世界软件开发和竞赛级编程挑战展现出实战能力、

Kimi-K2-Instruct还在多轮工具使用评测、通用知识、数学推理、指令遵循和长上下文任务中获得不错的表现。其MMLU得分(89.5%)、IFEval得分(89.8%) 等超越开源竞品,LMSYS Arena用户评测中位列开源模型榜首。
技术报告中放出了Kimi-K2-Instruct与其他开源、闭源模型的基准测试对比,加粗成绩代表全球SOTA,加粗并划线的成绩代表开源模型SOTA。Kimi-K2-Instruct获得14项全球SOTA,24项开源模型SOTA。

04.
结语:中国开源模型再突破


近期,中国开源模型在能力、国际影响力上不断实现突破。本次,Kimi K2已经发布后,便在国内外开源社区上吸引了不少人下载、体验。美国AI搜索独角兽Perplexity的创始人兼CEO甚至称,有计划在Kimi K2的基础上进行进一步训练。
我们也看到,本次Kimi K2的模型架构在DeepSeek-V3的基础上实现了创新,二者同属国产开源模型。随着Kimi逐步加入开源行列并开放旗舰级别的模型,国产开源AI生态中又多了一家重要的参与者。

(文:智东西)

发表评论