数学编码超越O3-high，英伟达版「DeepSeek R1二代」推理模型开源~

Nvidia开源OpenReasoning-Nemotron 系列模型合集，采用Qwen2.5架构，基于 500 万条数学、编程与科学推理轨迹训练而成，它们是由DeepSeek R1 0528 671B模型提炼的海量高质量数据。

在评测时允许其输出长度最高可达 64 K token。在多项高难度推理基准测试中，模型表现卓越：7 B、14 B 与 32 B 版本均在其对应规模层级中屡次刷新最先进水平（SOTA）。

多智能体协作

OpenReasoning-Nemotron 系列可通过“heavy”模式运行：同时启动多条并行生成，并利用GenSelect策略将结果融合。

为实现这一“技能”，沿用原版 GenSelect 训练流程，但不再使用选择摘要，而是直接采用 DeepSeek R1 0528 671B 的完整推理轨迹。仅在数学问题上训练模型挑选最优解法，却意外发现该能力可直接泛化至编程与科学问题！在此“heavy” GenSelect 推理模式下，OpenReasoning-Nemotron-32B 在数学与编程基准上均超越了 O3（High）模型。

https://hf-mirror.com/nvidia/OpenReasoning-Nemotron-32B

（文：PaperAgent）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复