知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」 2025年6月21日23时 作者 新智元 行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策
OpenAI 突然公开 o3-mini 思维链!首秀遭质疑,实测对比 DeepSeek R1,差距太明显 2025年2月7日12时 作者 APPSO OpenAI 公开了其最新模型 O3-mini 系列的新功能,用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。