小米首个推理大模型突然开源!股价上涨近5%

小米开源首个推理大模型Xiaomi MiMo,7B参数量的MiMo-7B-RL在数学和代码竞赛上超过OpenAI o1-mini及阿里Qwen。研究显示通过预训练和后训练过程中的多项创新联动提升推理能力,涵盖多样化数据与高质量推理模式相结合策略的有效性。

R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调

本文提出Entropy Minimized Policy Optimization (EMPO)方法,旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案,仅通过强化学习训练从基模型中获得策略,并利用语义相似性聚类生成的多个回答作为奖励信号,从而在数学及其他通用推理任务上取得显著性能提升。