强化学习归档 - 第25页共46页

R2前奏？DeepSeek联合清华新论文找到强化学习新方法：27B模型“干翻”671B

2025年4月4日23时作者 AI寒武纪

DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT，通过增加推理计算量实现了有效的推理时扩展，并显著提升了LLM的性能。

2025年4月4日16时作者机器之心

oning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在

2025年4月3日23时作者财联社AI daily

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力，并介绍其采用强化学习训练方案，未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。

2025年4月3日16时作者新智元

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务，标志着AI向通用人工智能（AGI）又迈进了一步。

2025年4月3日14时作者老刘说NLP

智谱AutoGLM沉思，都引起了大家的关注。
这其实引出来一个观点，关于Agent研发重心。文章(h

2025年4月2日11时作者新智元

：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，

2025年4月1日23时作者机器之心

对策略优化）。
不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 c

2025年4月1日23时作者机器之心

用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

2025年3月31日16时作者 AI前线

-Plus（中文名称为“百灵”），并发布了技术论文《Every Flop Counts》。其中 Li