重磅!AI 挑战天花板ARC-AGI-2 发布,顶流o3 模型也只能拿5分!
中午刷推时看到ARC Prize公布了全新AGI测试基准,当前行业TOP模型表现不佳。ARC-AGI-2测试瞄准了当前AI模型的三大软肋:符号解释能力、组合推理能力和上下文规则应用。通过该比赛,激励研究人员突破现有挑战,提升新技能获取效率。
中午刷推时看到ARC Prize公布了全新AGI测试基准,当前行业TOP模型表现不佳。ARC-AGI-2测试瞄准了当前AI模型的三大软肋:符号解释能力、组合推理能力和上下文规则应用。通过该比赛,激励研究人员突破现有挑战,提升新技能获取效率。
ARC-AGI基准测试的创始人François Chollet宣布将升级ARC-AGI基准测试,在2025年初发布ARC-AGI-2。因为当前版本的一半测试数据已经失去了评估AGI的意义,新版本将扩大评估数据集规模、采用独立的评估流程及任务难度均衡,以提供更可靠的评估标准。