小米开源MiMo模型,称性能超阿里QwQ-32B-Preview及OpenAI o1-mini

作者|沐风

来源AI先锋官


既造手机又造车,既布局IoT生活家电又搞机器人的小米,堪称科技公司中的“跨界王”。


日前,小米正式发布并宣布开源其首个“为推理而生”的大模型 Xiaomi MiMo,联动预训练到后训练,全面提升推理能力。


MiMo系列共开源了4个模型,分别为MiMo-7B、MiMo-7B-RL-Zero、MiMo-7B-RL以及一个MiMo-7B监督微调(SFT)模型。


据小米官方介绍,MiMo是来自成立不久的“小米大模型 Core 团队”的初步尝试。

虽然是初步尝试,但MiMo仅以7B(70亿)的参数规模,就在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评中,超越了OpenAI的闭源推理模型o1-mini,及阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。


小米技术团队表示,MiMo推理能力的核心突破在于,预训练与后训练阶段的协同优化。

据MiMo-7B论文介绍,小米技术团队认为,强化学习训练的推理模型有效性,依赖于基础模型的内在推理潜力。

为了充分释放语言模型的推理潜力,不仅要专注于后训练阶段,还必须致力于为推理量身定制的预训练策略。

在预训练阶段,其模型通过挖掘高质量推理语料并合成约2000亿tokens专项数据。

并且,MiMo采用了三阶段数据混合策略,以增强基础模型的推理潜力,累计训练量达25万亿tokens。


后训练阶段,则引入创新强化学习技术,包括自研的”Test Difficulty Driven Reward”算法和”Easy Data Re-Sampling”策略,有效提升模型在复杂任务中的稳定性。

技术团队还设计了”Seamless Rollout”系统,整合了连续采样、异步奖励计算以及提前终止机制,从而将GPU的闲置时间降至最低,使RL(强化学习)训练效率提升2.29倍,验证速度加快1.96倍。


另外,据小米团队称,MiMo-7B在相同RL训练数据下,数学与代码领域的表现,显著优于当前业界广泛使用的DeepSeek-R1-Distill-7B和Qwen2.5-32B模型。


但就目前推出的MiMo-7B来看,仅仅只是超越了 OpenAI的o1-mini,其距离最先进的水平还是有一段路要走。

不过,小米并非是半路入局大模型。

早在2023年,小米创始人雷军就表示,自2016年组建AI团队以来,到2023年4月第一时间成立专职大模型团队,经过多次扩展,小米AI团队相关人员规模已达3000多人。

去年11月,小米被传出内部成立了AI平台部发力AI大模型,由张铎担任负责人。

张铎曾在2016年至2021年期间在小米负责开源工作的规划与推进,2021年离开小米后曾入职神策数据担任研发负责人和首席架构师,2024年9月再度回归小米。

去年12月,小米又被曝出正着手搭建了自己的GPU万卡集群,将对AI大模型进行大力投入。

值得一提的是,在2024年小米集团营收3659亿元创历史新高,选择当下进军AGI、发力AI大模型可谓“粮草”充足。

随着小米的加入,2025年AI开源大模型下半场的竞争或许将变得更加激烈。

 

(文:AI先锋官)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往