英伟达官宣开源「超大杯」Llama Nemotron推理模型

英伟达官宣开源「超大杯」Llama Nemotron推理模型，共有253B参数，基于Llama-3.1-405B微调而来。在多项基准测试中，Llama Nemotron一举击败了两款Llama 4模型。而且仅用一半的参数，性能直逼DeepSeek R1。

尤其是，在复杂数学推理AIME（2024/2025）、科学推理GPQA Diamond、编码LiveCodeBnech中，新模型取得SOTA。相比DeepSeek R1 671B，它的推理吞吐量提升了4倍。

Llama-3.1-Nemotron-Ultra-253B-v1经过后期训练，专注于推理、人类聊天偏好和任务，如RAG（检索增强生成）和工具调用。它能支持128Ktoken的上下文长度，且能够在单个8xH100芯片节点上进行推理。

参考文献：
[1] https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

[2] https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

[3] https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

（文：NLP工程化）