跳至内容
Nvidia开源OpenReasoning-Nemotron 系列模型合集,采用Qwen2.5架构,基于 500 万条数学、编程与科学推理轨迹训练而成,它们是由DeepSeek R1 0528 671B模型提炼的海量高质量数据。
在评测时允许其输出长度最高可达 64 K token。在多项高难度推理基准测试中,模型表现卓越:7 B、14 B 与 32 B 版本均在其对应规模层级中屡次刷新最先进水平(SOTA)。
OpenReasoning-Nemotron 系列可通过“heavy”模式运行:同时启动多条并行生成,并利用GenSelect策略将结果融合。
为实现这一“技能”,沿用原版 GenSelect 训练流程,但不再使用选择摘要,而是直接采用 DeepSeek R1 0528 671B 的完整推理轨迹。仅在数学问题上训练模型挑选最优解法,却意外发现该能力可直接泛化至编程与科学问题!在此“heavy” GenSelect 推理模式下,OpenReasoning-Nemotron-32B 在数学与编程基准上均超越了 O3(High)模型。
(文:PaperAgent)