o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark 2025-06-16 作者 量子位 大模型O3-Pro成功突破经典游戏推箱子和俄罗斯方块的Benchmark,并展示了其在Lmgame这套测试框架中的表现。
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底 2025-04-17 作者 新智元 UCSD研究团队以经典游戏《逆转裁判》为舞台测试AI推理能力,结果显示o1和Gemini 2.5 Pro表现最佳;通过项目开源,更多经典游戏可用来测试AI模型性能。