240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。
东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。
英伟达在GTC 2025大会上发布专用于AI Agent的Llama Nemotron模型,并推出了性能更强的Blackwell Ultra AI工厂。
AMD开源了最新小参数模型Instella-3B及其微调版本。该模型性能超越Llama-3.2-3B和Gemma-2-2B,并在多个基准测试中表现优异。