斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库
斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。
斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。
文章介绍了如何使用AI助手快速高效地处理网页和论文的阅读任务。包括一键摘要、提出关键问题指令等操作,还分享了Srinivasan Keshav教授提出的三遍阅读法来理解和分析专业论文的方法。
最近,《Nature》发布全球AI研究领域TOP100高校榜单。哈佛、斯坦福和麻省理工学院位列前三,美国共有46所大学上榜。清华大学和北京大学分别排名第9和第14位。中国有19所高校上榜,为所有国家中增长速度最快的。
来自多个知名大学和公司的团队推出了Genesis平台,它结合生成式AI与真实世界物理的准确性,提供通用物理引擎、机器人仿真平台等多样的功能。其目标是减少人类在数据生成中的投入,并实现自动化和自给自足的数据生态系统。
李飞飞教授在2024年创立了World Labs公司,并发布了首个基于图像生成3D场景的AI系统。同年,她担任斯坦福大学计算机科学教授、HAI研究院院长,并发表了多场关于空间智能的重要演讲和论文。
来自卡内基梅隆大学、斯坦福大学等的众多专家推出了全新物理仿真平台Genesis,它结合生成式AI和真实物理准确性,专为通用机器人、具身人工智能和物理AI应用设计。
Meta公司推出的新AI模型系列Apollo采用了独特的双组件设计和分阶段训练策略,显著提升了视频理解和追踪能力。通过数据优化和跨界合作,Apollo在广告、社交等多个领域展现出广泛应用潜力,并有望推动人工智能技术的进一步发展。