UCSD 归档 - 每时AI

o3通关「俄罗斯方块」，碾压Gemini夺冠！UCSD新基准击碎宝可梦

2025年7月1日16时作者新智元

UCSD等推出Lmgame Bench标准框架，结合多款经典游戏测试大模型能力。结果显示不同模型在各游戏中表现迥异，凸显游戏作为AI评估工具的独特价值。宝可梦成为顶级模型的试金石。

2025年6月16日16时作者量子位

大模型O3-Pro成功突破经典游戏推箱子和俄罗斯方块的Benchmark，并展示了其在Lmgame这套测试框架中的表现。

2025年4月17日16时作者新智元

UCSD研究团队以经典游戏《逆转裁判》为舞台测试AI推理能力，结果显示o1和Gemini 2.5 Pro表现最佳；通过项目开源，更多经典游戏可用来测试AI模型性能。

2025年2月12日23时作者新智元

新智元报道
编辑：犀牛好困
GameArena团队开发的《AI Space Escape》游戏通过紧张刺激的密室逃脱方式评估AI模型的推理能力，生成宝贵的游戏数据，并将所有数据公开供进一步研究。该游戏超越了传统的数学和编程基准测试方法。

2024年12月20日18时作者新智元

新智元报道
编辑：编辑部 HYZh
【新智元导读】
英伟达2025年博士奖学金名单揭晓了！今年，共有

2024年12月4日16时作者机器之心

UCSD 张怡颖教授团队推出的 Cognify 是一款优化生成式 AI 工作流的工具，能够提高 48% 的生成质量并降低 90% 的成本。Cognify 提供了多种模型和提示词进行优化，目前支持 LangChain、DSPy 和基于 Python 的工作流。