R1
DeepSeek-V3与R1合体!快手开源AutoThink大模型,终结AI「过度思考」时代
快手KwaiCoder-AutoThink开源大模型,通过实现快慢双模思考模式优化推理效率,解决AI过度思考问题,提升性能20分。它采用了创新的Step-SRPO强化学习框架进行训练,并在多个场景中展示了其优越性。
R1–Zero强化学习路线新发现及R1思路用于GUI Agent动作预测方案
2025年4月1日,北京天气晴。文章介绍了R1进展中的两个工作,一是研究多种基础模型预训练特性的影响;二是将GRPO-RL强化用于Agent的UI动作预测,数据和奖励函数设计有趣。研究发现Qwen2.5模型在不使用模板的情况下有强大的推理能力,但模板会破坏数学解题能力。此外,文章还讨论了强化学习在图形用户界面(GUI)动作预测中的应用。
传DeepSeek R2提速!字节豆包灰测深度思考,微软Copilot已免费开放
科技巨头纷纷推出深度推理模型。微软面向所有Copilot用户免费提供语音和深度思考功能,并宣布由OpenAI的o1模型支持。近期多家AI企业如OpenAI、谷歌等也发布了新的深度推理/深度思考模型。