斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。

具身智能工业场景需求明确,扩大应用场景和处理复杂数据仍是发展重点|云深处李超@MEET2025

云深处科技联合创始人李超在MEET 2025智能未来大会上表示,具身智能提高了传统机器人的泛化能力。目前行业处于L2级,主要应用于工业场景。云深处已推出多款面向电力、消防、救援等行业的机器人产品,并展示了其在实际应用中的优势和挑战。