跳至内容

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC),以及具身世界模型评测基准EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 – 标准化评测 – 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。
-
EVAC arxiv:https://arxiv.org/abs/2505.09723
-
EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC
-
EWMBench arxiv: https://arxiv.org/abs/2505.09694
-
EWMBench 开源代码:https://github.com/AgibotTech/EWMBench
当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人依托深厚的技术积累,精准洞察行业痛点,在去年发布的世界模型架构EnerVerse基础上推出创新成果:基于动作序列驱动的世界模型 EVAC与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。
技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型
EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。
核心能力:从 “物理执行” 到“像素空间”的精准映射
EVAC基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 – 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:
-
机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;
-
动态多视图建模:引入Ray Map编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;
-
卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;
-
数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。
针对真机评测成本高、风险大、难以复现等痛点,EVAC开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。
EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用EVAC数据增广数据训练的策略模型,其任务成功率提升高达29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。
为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。
三维度评估体系:场景 × 动作 × 语义的立体考核
针对机器人操作场景的复杂性与特殊性,EWMBench构建了立体化的评估体系,从场景一致性、动作合理性 与语义对齐与多样性三大核心指标进行分析:
-
场景一致性Scene Consistency:评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的DINOv2特征进行量化。
-
动作合理性Motion Correctness:利用HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。
-
语义对齐与多样性Semantic Alignment & Diversity:结合MLLM(多模态大模型)和CLIP从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。
-
基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。
-
开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。
相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。
协同效应:EnerVerse X EVAC × EWMBench 的 “螺旋进化”
EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 – 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。
EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model赛道的官方基线系统与评测标准。对于致力于具身智能世界模型研究的开发者和团队而言,提供了一个宝贵的实践与验证平台。我们鼓励有兴趣的同行关注并参与此项挑战赛。参赛者将有机会:利用EVAC开源代码与模型权重,训练、调优具身世界模型;通过EWMBench全面的评测维度和标准化工具,客观评估其世界模型的性能;在统一的基准下与全球研究者交流、比较和迭代各自的创新方法。AgiBot World Challenge @IROS 2025旨在促进具身智能领域的前沿探索与技术交流,期待通过这一平台见证更多富有创造力的成果。
具身世界模型 EVAC和具身世界模型评测基准 EWMBench的发布和开源,将全面破解模型评测成本高和数据价值未充分挖掘利用的行业痛点,标志着具身智能进入“算法 – 评测” 协同进化时代。智元机器人也将持续践行具身智能生态发展的创新和协作,持续推动前沿技术开源,引领具身智能迈向更高效、更普适的未来。
(文:AI科技大本营)