OpenReasoning-Nemotron：NVIDIA发布一系列蒸馏推理大语言模型

OpenReasoning-Nemotron：NVIDIA发布一系列蒸馏推理大语言模型，专注数学、科学与代码领域，推动推理能力研究迈向新高度。

• 基于DeepSeek R1 0528 671B模型蒸馏，涵盖1.5B、7B、14B、32B四种规模，性能领先同类模型。
• 训练数据由DeepSeek R1 0528生成，包含500万条高质量数学、科学和代码推理解决方案，数据及训练代码开放于NeMo-Skills。
• 多项权威推理基准测试表现卓越，32B模型在复杂数学与代码任务中刷新记录。
• 支持多代理并行生成与GenSelect方案，显著提升解题准确率，32B版本GenSelect准确率达96.7%（HMMT Feb 25）。
• 仅采用监督微调蒸馏，无强化学习，提供坚实基线，助力后续推理强化学习研究。
• 适合推理效率优化、定制任务微调及偏好优化研究，拓展推理模型应用边界。

参考文献：
[1] 模型与代码详见：https://huggingface.co/blog/nvidia/openreasoning-nemotron

知识星球：Dify源码剖析及答疑，Dify扩展系统源码，AI书籍课程|AI报告论文，公众号付费资料。加微信buxingtianxia21进NLP工程化资料群，以及Dify交流群。

（文：NLP工程化）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复