强化学习归档 - 第27页共46页

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

2025年3月25日16时作者机器之心

答案的情况，比如以下例子：
根据视频中本车的动作，它接下来最有可能立即采取的行动是什么？
A：右转，

2025年3月24日8时作者 NLP工程化

深入剖析R1-Zero训练方法，发现其已展现‘灵光一现’现象，并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。

2025年3月23日16时作者 AI寒武纪

新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习（RL）两大基石，并指出现有方法可能存在偏见问题，提出了改进方案。

2025年3月23日14时作者老刘说NLP

今天是2025年3月23日，星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线，包括数据处理和训练方法，并总结了减少推理大模型过度思考的技术方案。

2025年3月22日16时作者量子位

模型（VLM）生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例，

MLNLP社区是国内外知名的人工智能学术社区，其愿景是促进机器学习与自然语言处理领域内的交流合作。论文《Stop Overthinking》探讨了高效推理的方法及其在自动驾驶和医疗诊断等领域的应用挑战，提出模型优化、动态压缩和提示工程三大方向的研究进展及未来展望。

2025年3月21日11时作者机器之心

OpenAI 发布了新的音频模型，实现了语音转文本技术的重大进步，这些模型改进了单词错误率，并在多个既定基准中表现最佳。