斯坦福揭秘o1-preview软肋!数学竞赛题稍作修改,准确率骤降30% 下午4时 2025/01/31 作者 新智元 斯坦福研究发现,即使在数学竞赛中表现出色的大模型o1-preview,在题目稍作修改后准确率也会大幅下降30%。这揭示了AI模型在应对变体题时的局限性。
o1 Pro挑战最难本科数学考试,36分钟16秒交卷 下午6时 2024/12/09 作者 量子位 普特南数学竞赛是美国最难的本科数学考试之一。o1 Pro仅用36分钟完成全部12道题,平均每道题用时不到3分钟。