小米开源MiMo模型，称性能超阿里QwQ-32B-Preview及OpenAI o1-mini

作者｜沐风

来源｜AI先锋官

既造手机又造车，既布局IoT生活家电又搞机器人的小米，堪称科技公司中的“跨界王”。

日前，小米正式发布并宣布开源其首个“为推理而生”的大模型 Xiaomi MiMo，联动预训练到后训练，全面提升推理能力。

MiMo系列共开源了4个模型，分别为MiMo-7B、MiMo-7B-RL-Zero、MiMo-7B-RL以及一个MiMo-7B监督微调（SFT）模型。

据小米官方介绍，MiMo是来自成立不久的“小米大模型 Core 团队”的初步尝试。

虽然是初步尝试，但MiMo仅以7B（70亿）的参数规模，就在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评中，超越了OpenAI的闭源推理模型o1-mini，及阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

小米技术团队表示，MiMo推理能力的核心突破在于，预训练与后训练阶段的协同优化。

据MiMo-7B论文介绍，小米技术团队认为，强化学习训练的推理模型有效性，依赖于基础模型的内在推理潜力。

为了充分释放语言模型的推理潜力，不仅要专注于后训练阶段，还必须致力于为推理量身定制的预训练策略。

在预训练阶段，其模型通过挖掘高质量推理语料并合成约2000亿tokens专项数据。

并且，MiMo采用了三阶段数据混合策略，以增强基础模型的推理潜力，累计训练量达25万亿tokens。

后训练阶段，则引入创新强化学习技术，包括自研的”Test Difficulty Driven Reward”算法和”Easy Data Re-Sampling”策略，有效提升模型在复杂任务中的稳定性。

技术团队还设计了”Seamless Rollout”系统，整合了连续采样、异步奖励计算以及提前终止机制，从而将GPU的闲置时间降至最低，使RL（强化学习）训练效率提升2.29倍，验证速度加快1.96倍。

另外，据小米团队称，MiMo-7B在相同RL训练数据下，数学与代码领域的表现，显著优于当前业界广泛使用的DeepSeek-R1-Distill-7B和Qwen2.5-32B模型。

但就目前推出的MiMo-7B来看，仅仅只是超越了 OpenAI的o1-mini，其距离最先进的水平还是有一段路要走。

不过，小米并非是半路入局大模型。

早在2023年，小米创始人雷军就表示，自2016年组建AI团队以来，到2023年4月第一时间成立专职大模型团队，经过多次扩展，小米AI团队相关人员规模已达3000多人。

去年11月，小米被传出内部成立了AI平台部发力AI大模型，由张铎担任负责人。

张铎曾在2016年至2021年期间在小米负责开源工作的规划与推进，2021年离开小米后曾入职神策数据担任研发负责人和首席架构师，2024年9月再度回归小米。

去年12月，小米又被曝出正着手搭建了自己的GPU万卡集群，将对AI大模型进行大力投入。

值得一提的是，在2024年小米集团营收3659亿元创历史新高，选择当下进军AGI、发力AI大模型可谓“粮草”充足。

随着小米的加入，2025年AI开源大模型下半场的竞争或许将变得更加激烈。

（文：AI先锋官）