密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25

清华大学团队提出EscapeCraft,一个3D密室逃脱环境来评估多模态大模型在视觉推理任务中的能力。通过分析不同模型的表现,揭示了它们是否能像人类一样进行推理和决策,并发现了模型存在的多种错误类型。

新版 Kimi 突然发布!首个万亿开源模型不是 R2 是 K2,OpenAI 临时推迟开源 附实测体验

不到半年,国产开源大模型经历了显著变化。DeepSeek凭借高性能和性价比迅速崛起并主导了这一领域。目前,Kimi 推出的 K2 模型在多任务中表现出色,并通过官方部署支持主流推理引擎。