思考模式归档

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

2025年6月8日16时作者机器之心

本文研究了语言模型对强化学习中奖励噪声的鲁棒性，即使翻转大部分奖励也能保持高下游任务表现。作者提出了思考模式奖励机制，并展示了其在数学和AI帮助性回复生成任务中的有效性。

2025年4月18日11时作者新智元

谷歌发布首个混合推理模型Gemini 2.5 Flash，引入了革命性”思考预算”功能，性能显著提升，在多个基准测试中表现优异。