模型泛化能力归档 - 每时AI

更长思维并不等于更强推理性能，强化学习可以很简洁

2025年4月14日16时作者机器之心

a 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

2024年12月14日12时作者机器之心

机器之心报道
机器之心编辑部
「推理是不可预测的，所以我们必须从令人难以置信的，不可预测的 AI 系