斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库
斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。
斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。
奥特曼发布年终总结,回顾一年多被炒鱿鱼的经历,并展望2025年AI Agent加入劳动力大军的目标。强调公司成立以来的发展历程及取得的成就,同时反思过程中遇到的问题与挑战。
潞晨科技创始人尤洋博士介绍了公司开发的视频生成模型VideoOcean,并提出视频大模型应实现精细化文本控制、任意机位/角度以及角色一致性等目标,预计3年后将迎来GPT-3.5级别的突破。
云深处科技联合创始人李超在MEET 2025智能未来大会上表示,具身智能提高了传统机器人的泛化能力。目前行业处于L2级,主要应用于工业场景。云深处已推出多款面向电力、消防、救援等行业的机器人产品,并展示了其在实际应用中的优势和挑战。
微软发布一篇论文提及GPT-4系列模型参数,并指出Claude 3.5 Sonnet优于其他LLM方法。论文还介绍了MEDEC研究项目,该项目旨在识别临床笔记中的错误并改正。