大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
MLE-Dojo是首个为训练和评测大模型智能体设计的交互式环境,它能模拟机器学习工程师的真实工作流程。目前八个顶尖的大语言模型在200多个真实Kaggle竞赛上的测试中,Gemini-2.5-Pro表现最佳,但仍有改进空间。
MLE-Dojo是首个为训练和评测大模型智能体设计的交互式环境,它能模拟机器学习工程师的真实工作流程。目前八个顶尖的大语言模型在200多个真实Kaggle竞赛上的测试中,Gemini-2.5-Pro表现最佳,但仍有改进空间。