港中文归档 - 每时AI

类R1训练不再只看结果对错！港中文推出SophiaVL-R1模型

2025年6月6日23时作者机器之心

SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型，它不仅奖励结果的准确性，还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法，SophiaVL-R1 提升了模型的推理质量和泛化能力，在多模态数学和通用测试数据集上表现优于大型模型。

2025年5月27日16时作者机器之心

上海交大等团队推出Visual-ARFT项目，专为视觉语言模型设计多模态智能体训练方法，实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o，展现强大工具调用和推理能力。

2025年4月9日16时作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1，该模型通过引入时序建模和混合训练机制，在权威测试中击败了GPT-4o。