被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
新智元报道
编辑:犀牛 好困
GameArena团队开发的《AI Space Escape》游戏通过紧张刺激的密室逃脱方式评估AI模型的推理能力,生成宝贵的游戏数据,并将所有数据公开供进一步研究。该游戏超越了传统的数学和编程基准测试方法。
news
新智元报道
编辑:犀牛 好困
GameArena团队开发的《AI Space Escape》游戏通过紧张刺激的密室逃脱方式评估AI模型的推理能力,生成宝贵的游戏数据,并将所有数据公开供进一步研究。该游戏超越了传统的数学和编程基准测试方法。
DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法,成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview,展示了小模型通过强化学习也能实现飞跃的潜力。
苹果正在与中国互联网巨头阿里巴巴合作开发中国版AI功能。此前曾考虑百度,但因DeepSeek团队缺乏支持大型客户的资源和技术经验而放弃。
国优先」,不接受任何国家的强加监管,拒签70多个国家和组织参与的「AI宣言」。欧洲「背水一战」,斥资