「AI重大飞跃」OpenAI官宣:内部实验模型在IMO 2025中取得金牌,GPT-5即将发布
OpenAI研究员Alexander Wei宣布,其开发的内部模型在国际数学奥林匹克竞赛中取得相当于人类金牌选手的成绩。该模型成功解决6个问题中的5个,总分高达35/42,展示了强大的通用推理能力,并透露GPT-5即将发布。
OpenAI研究员Alexander Wei宣布,其开发的内部模型在国际数学奥林匹克竞赛中取得相当于人类金牌选手的成绩。该模型成功解决6个问题中的5个,总分高达35/42,展示了强大的通用推理能力,并透露GPT-5即将发布。
文章介绍了Manus团队通过巧妙的上下文工程构建成功AI Agent的经验。关键点包括围绕KV缓存设计、使用屏蔽工具而非删除、将文件系统视为上下文扩展、利用反复回顾机制保持目标清晰、保留错误信息以提升能力,并避免Few-shot误导。
在日本东京举办的AtCoder启发式编程世界杯总决赛中,人类选手Psyho以坚韧不拔的精神赢得冠军,OpenAI研发的AHC模型获得亚军。比赛聚焦于解决优化问题,最终由Psyho在10小时激烈竞争后实现逆转获胜。
OpenAI发布ChatGPT Agent,结合远程浏览器和深度研究能力,实现复杂任务自动化。其核心功能包括生成PPT、数据分析、购物及投资建模等,具有可视化浏览器、文本浏览器、终端等功能支持。Agent可替代人类完成多种日常工作与生活任务,并在多个基准测试中表现优异。
几天测试Kimi K2和Claude Code效果,涵盖响应式作品集、仪表盘定制化及网络爬虫制作EPUB电子书三个项目。整体效果惊艳,Kimi K2+Claude Code性价比高且功能强大。
Jason Wei 提出了‘验证者定律’,指出训练 AI 解决任务的难易程度与其可验证性成正比。他还提出了 ‘On-Policy RL’ 的概念,认为要想超越他人,必须走自己的路,并直面环境给予的风险与回报。
Cognition收购Windsurf,合并AI和IDE优势提升开发者体验。Windsurf曾遭谷歌突击调查,现由华人CEO执掌,并承诺员工保障措施。
RL强大但受限,Karpathy提出新范式超越传统方法。强调渐进学习效率低及与人类学习差异,构想‘补丁’和‘教训’机制实现自我提升。