井字棋归档 - 每时AI

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

2025年6月21日23时作者新智元

行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策

2025年2月7日12时作者 APPSO

OpenAI 公开了其最新模型 O3-mini 系列的新功能，用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。