DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
DeepSeek发布新论文提出SPCT方法解决通用RM推理时扩展问题,并计划先发布o3和o4-mini,GPT-5将在几个月后推出。
DeepSeek发布新论文提出SPCT方法解决通用RM推理时扩展问题,并计划先发布o3和o4-mini,GPT-5将在几个月后推出。
奥特曼宣布GPT-5将免费开放并整合多项尖端技术,包括o3和o4-mini模型将在几周内推出。同时,OpenAI计划开源一款强大推理模型,Meta的Llama 4却因性能问题延期发布。
在本期AGI Hunt播客中,智子和John讨论了AI行业动态,包括OpenAI推迟GPT-5发布、微软生态升级及Google Gemini 2.5 Pro等。同时探讨了AI模型成本下降对产业的影响、开源社区进展及伦理安全问题。
OpenAI的o3推理模型成本从预估的3000美元飙升至3万美元,远超预期。尽管o3-high试图通过暴力试错生成大量文本解答问题,但被ARC-AGI系统排除在外,因为每个任务的成本高达3万美元。
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。
本文深入分析了模型上下文协议 (MCP) 的发展动态,指出其作为关键连接标准的重要性,并探讨了它如何推动AI Agent从单一模型向集成系统演进,赋能AI深入现实工作流,并促进相关开发者生态的成熟。
OpenAI发布的PaperBench测评基准测试了AI复现顶级学术论文的能力,Claude 3.5 Sonnet在20篇ICML论文测试中的平均得分为21%,超过了一半的顶会论文。该基准不仅严苛要求,还开源代码鼓励研究者参与。此外,斯坦福大学的研究表明LLM能提出有创意的新想法,但其可行性有待提升。OpenAI研究员Jason Wei认为AI科学创新将有两种风格:专注特定问题或训练通用型AI系统。未来AI在科研领域的潜力巨大,包括辅助和引领重大突破。
PaperBench 是由 OpenAI 开发的一个基准测试,用于评估 AI Agent 复现尖端 AI 研究的能力,共包含 8,316 个任务,并通过评分标准进行自动化评估。