OpenReasoning-Nemotron:NVIDIA发布一系列蒸馏推理大语言模型,专注数学、科学与代码领域,推动推理能力研究迈向新高度。
• 基于DeepSeek R1 0528 671B模型蒸馏,涵盖1.5B、7B、14B、32B四种规模,性能领先同类模型。
• 训练数据由DeepSeek R1 0528生成,包含500万条高质量数学、科学和代码推理解决方案,数据及训练代码开放于NeMo-Skills。
• 多项权威推理基准测试表现卓越,32B模型在复杂数学与代码任务中刷新记录。
• 支持多代理并行生成与GenSelect方案,显著提升解题准确率,32B版本GenSelect准确率达96.7%(HMMT Feb 25)。
• 仅采用监督微调蒸馏,无强化学习,提供坚实基线,助力后续推理强化学习研究。
• 适合推理效率优化、定制任务微调及偏好优化研究,拓展推理模型应用边界。


参考文献:
[1] 模型与代码详见:https://huggingface.co/blog/nvidia/openreasoning-nemotron
知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21
进NLP工程化资料群,以及Dify交流群。
(文:NLP工程化)