元奖励模型归档 - 每时AI

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

2025年4月4日23时作者新智元

发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。
DeepSeek R2，果然近了。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

2025年4月4日16时作者机器之心

，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。
当前，强化学习（RL