Grok 4刷新ARC-AGI-2纪录:15.9%碾压所有公开模型,我们离AGI还有多远?
xAI模型Grok 4在ARC-AGI-2测试中得分15.9%,成为全球最强公开AI模型,打破噪声屏障展示流体智能能力。
xAI模型Grok 4在ARC-AGI-2测试中得分15.9%,成为全球最强公开AI模型,打破噪声屏障展示流体智能能力。
ReasonMap 是首个聚焦于高分辨率交通图的多模态推理评测基准,用于评估大模型在理解图像细粒度结构化空间信息方面的能力。
清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。