大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

MLE-Dojo是首个为训练和评测大模型智能体设计的交互式环境,它能模拟机器学习工程师的真实工作流程。目前八个顶尖的大语言模型在200多个真实Kaggle竞赛上的测试中,Gemini-2.5-Pro表现最佳,但仍有改进空间。

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。