强化学习归档 - 第2页共46页

GPT-5难产内幕曝光！核心团队遭挖空，推理魔咒难破，靠英伟达续命

2025年8月2日16时作者新智元

金。一边是人才出走、小扎截胡、团队内部陷入混乱，另一边，推理模型魔咒让研究者苦恼不已，项目甚至一度停

2025年7月27日8时作者 AI前哨站

作为全球人工智能领域的顶级盛会，本届大会以“智能时代同球共济”为主题，吸引了来自30余个国家和地区

2025年7月27日8时作者新智元

异常检测，能精准识别微小缺陷，无需缺陷样本训练。可作为通用插件提升现有检测系统，帮助工厂提前发现缺陷

2025年7月26日8时作者 AIGC开放社区

专注AIGC领域的专业社区分享微软&OpenAI、百度文心一言等大语言模型的发展和应用，强调信息检索挑战及解决方案。介绍阿里通义实验室开源的创新AI Agent框架WebSailor，在复杂任务中的出色表现及其技术原理。

2025年7月25日12时作者 APPSO

出一句话，它就能像个聪明的助理一样，查资料、写报告、点网页、跑代码，甚至还能做一整套财报分析，再打包

2025年7月24日12时作者硅星人Pro

最坦诚的对话。
6月5日，在北京前沿国际人工智能研究院旗下“月光社”举办的“走进松延动力”研讨活动中

2025年7月24日12时作者硅星人Pro

发布Qwen3-Coder-480B-A35B-Instruct，这可能是AI编程领域的一个分水岭时

2025年7月23日12时作者量子位

谷歌DeepMind三位华人核心成员因获得IMO金牌被曝加入Meta。杜宇、Tianhe Yu和王薇月曾负责Gemini模型的思考后训练，谷歌随后挖角微软也宣布从谷歌挖来20多名人才。

2025年7月22日8时作者 AI寒武纪

谷歌DeepMind的Gemini模型在2025年国际数学奥林匹克竞赛中以金牌标准完成6题解出5题，全程使用自然语言推理，获得IMO官方认证。这一成就反映了AI在“深度思考”方面的进步。

2025年7月21日23时作者量子位

美团团队提出Metis-RISE框架，通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型，在OpenCompass多模态推理榜单上取得了优异成绩，验证了方法的有效性和可扩展性。