公布最新研究!这次1XWorldModel如何颠覆人形机器人领域?

2024年9月,1XTechnologies(以下简称“1X”)发布全球首个人形机器人世界模型1X World Model首证Scaling Law(人形机器人数据显著增强扩展定律)前不久,1X对外公布了其世界模型在技术迭代和应用场景上取得的多项突破,再度成为行业焦点。



据具身智能大讲堂了解,1X World Model是一种可以模拟现实世界在智能体作用下如何演变的生成式视频模型,其基于视频生成技术(Sora)和自动驾驶世界模型(端到端自动驾驶,E2EAD)构建形成,能够通过输入图像状态与动作指令模拟出机器人在不同动作下的未来场景,预测机器人和操作对象之间的交互效果,帮助人形机器人完成精准交互,解决具身机器人评估难题。



本次1X World Model最新突破集中在三个方面:


动作可控性:从基础动作响应到复杂物理场景精准模拟


首次公开的1X World Model具备根据不同动作命令生成不同结果的能力通过展示以四种不同轨迹为条件对世界模型进行的不同生成过程,且每条轨迹都从相同初始帧起始,清晰地呈现了其多样化生成特性。



在模拟物体间交互这一核心价值体现上,早期模型能在给定相同初始帧与三组不同抓取箱子动作的情况下,精准实现被抓取箱子随夹持器运动而抬起、移动,同时让其他箱子保持静止的模拟效果。



本次曝光的1X World Model在功能和特性上实现了重大突破。与大多数主流文本转视频(T2V)的视频生成模型不同,用于机器人模拟的世界模型对动作可控性有着极高要求,需由精确的机器人轨迹控制,而非模糊指令,同时还需遵循物理规律响应智能体动作。1X World Model可以通过输入几帧真实素材的初始帧以及多个后续动作轨迹,来演示其动作可控性。



从这一锚点出发,1X World Model够精准模拟执行精确动作的后果涵盖物体物理特性相关的各类场景,如打开门、用抹布擦拭台面等复杂操作。如上图演示所示,1X World Model为 NEO人形机器人从同一初始帧出发,可生成执行拿起马克杯、擦拭台面、后退步、虚拟空气吉他弹奏等动作后,物理合理且截然不同的未来状态。



在模型预测与现实执行结果对比验证方面,1X World Model也表现出色。输入真实视频的初始帧及后续动作轨迹后,模型能模拟产生包括门体动力学、布料擦拭台面等物理交互的连贯结果。在序列1中,准确复现 Neo为客人开门的动态过程;序列2里,即便现实场景存在模型未感知的可抓取马克杯,它仍严格遵循指令轨迹控制夹爪完成空抓动作。这种精确的物理对齐特性,赋予1X World Model可靠评估不同策略在相同初始条件下动作执行质量差异的能力,为机器人策略仿真与优化提供了坚实支撑。



模型表现评估:海量真实数据学习,准确预测未来演变


在通用机器人开发进程中,评估环节一直面临一个棘手却常被忽视的难题:如何精准衡量模型在多样化任务中的表现?即便训练机器人执行1000个不同任务,也难以保证新模型在所有任务上超越旧版本。而且,环境光照、背景布局等细微变化,都可能使模型性能在短时间内大幅波动。


全面评估人形机器人在多样化家居环境中的表现,耗时漫长单个策略检查点需数百至数千样本才能获取统计显著性数据,而单次训练可能产生数十个候选检查点,全面评估成本高昂因此,筛选进入现实评估的模型至关重要,可靠的离线评估能大幅提升实验效率。



传统基于物理的模拟器(如Bullet、Mujoco、Isaac Sim等),虽提供可重置、可复现的测试环境,便于比较不同控制算法,但其刚体动力学设计难以精准模拟现实复杂交互。柔性物体形变、材料特性变化(如冷冻果酱黏性改变)以及人机协作等场景,需大量手工建模且仿真精度有限更重要的是,这类仿真环境与真实家居场景存在差异,小规模测试结果难以预测机器人在开放环境中的实际表现。



此前,1X World Model凭借数据驱动的仿真方法,打破了传统局限,不再依赖手工建模的物理引擎。通过对EVE人形机器人在家庭和办公场景下执行各类复杂任务,包括物品抓取、精细操作、环境导航以及自然人机交互等高质量操作数据的系统性收集,1X采集了超3000小时真实操作数据。同时,利用创新多模态数据融合技术,1X将高清视频流与精确的动作轨迹数据同步对齐,训练出能直接从海量真实传感器数据中学习世界动态,根据当前环境观察和动作指令,准确预测不同策略未来场景演变的1X World Model。



评估的另一关键维度是重现生产环境中的故障与边缘案例。例如,机器人在用户家中遇到新品牌咖啡机冲泡失败,能否通过训练新模型解决该特定情况?


迭代更新后的1X World Model,能针对每个模型检查点权重,准确预测未来状态和任务成功率,其预测结果与现实世界表现保持高度一致的统计分布特性这不仅有助于理解模型的大规模性能特征,还建立了即时反馈机制,为模型架构优化和检查点选择提供数据支撑。在客户场景部署学习型机器人模型时,借助1X World Model,可对关键“测试时”任务条件进行“快照”式直接评估,确保策略的安全性和高性能。



Arcade任务为核心测试场景1X设置连续10分钟的模型运行测试机器人连续三次抓取失败或进入不可恢复状态时重置方块位置。评估指标综合考虑成功次数、抓取尝试总数和重置次数,采用特定计算公式,鼓励高频尝试的同时惩罚干预行为。所有现实策略评估采用双盲A/B测试设计,在单一机器人单一环境中运行,最大限度控制混杂变量,操作人员随机选择运行模型,测试结束后汇总结果。通过评估实验1X World Model在检查点选择、架构对比、架构性能评估方面得到全面验证。



检查点选择上,实证表明在1X World Model评估中表现突出的检查点,实际评估中通常更优,当两个检查点存在15%的真实成功率差距时,具备70%对齐度的世界模型能以90%的准确率预测出更优策略,为筛选潜力策略模型提供依据。架构对比环节,对比各训练过程所有检查点表现,能深入剖析不同架构性能特点。消融实验显示,预测成功率与实际任务得分存在相关性,可推断本体感觉输入能提升策略性能;对比ViT – B与ViT – L作为策略图像编码器的表现,证实预测更优的ViT – L模型实际表现更好,为架构设计提供新思路,为编码器选择提供明确指导。



架构性能评估采用多维度对比方法,在四种基础架构上扫描Arcade任务的1XWM评估结果,对比两种推理时采样策略,发现mu – only采样策略更具优势,且这一发现在实际部署中得到确认,该方法还可用于其他独立组件的变量控制或重复对比实验,为策略架构优化和改进提供有力支持。



扩展定律验证:数据量与准确率正相关助力实现多任务迁移


在机器学习领域,扩展定律始终是核心研究议题,尤其在大语言模型(LLMs)研究中,大量实证表明训练数据规模的提升能显著改善模型性能。受此启发,1X深入探究了1X World Model策略评估准确性是否会随数据规模提升而改善,以及哪些数据类型能带来最大增益。


为开展研究,1X训练1X World Model不仅要预测未来状态和图像,还需判断每次任务尝试的最终成败。研究团队定义“对齐度”为模型预测与现实世界的吻合程度,以成功率/失败率预测准确率来衡量。Airfryer、Arcade和Shelf三个任务上,研究团队对数据规模的影响进行了验证。实验数据收集通过遥操作和自主策略rollout完成。


Airfryer任务中,NEO机器人要完成拉开炸锅托盘、抓取食材投放、推回托盘这一系列动作,任一环节失败任务即告失败。



Arcade任务要求EVE机器人精准抓取目标物体并投入指定开口。



Shelf任务里,EVE需根据语言指令,在四格货架间转移直立物体,且起始和目标姿态都要保持直立。1X采用时序折扣法对最终成功(+1)/失败(-1)帧进行逆向价值标注,通过验证集上的价值预测准确率评估不同数据规模下模型的改进情况。



定量与定性分析结果显示,基础模型经网络视频预训练后,在Airfryer和Arcade任务上,1X分别采用10% – 100%比例的数据子集进行微调随着数据量增加,模型预测准确率持续提升。例如,数据量小时,1X World Model会将空气炸锅托盘与机身误判为整体,导致操作失误;而增加交互数据后,它能准确建模托盘分离运动及底座限制等细微物理交互。




多任务迁移实验成果则表明,在仅有2.16亿token的Shelf数据上,模型对齐度为63.06%;结合14.6亿token的Arcade数据后,对齐度提升至71.17%。这表明1X World Model能有效迁移抓取动力学、碰撞先验等潜在结构知识,验证了通过任务经验积累实现泛化的可行性。



通过对比遥操作、自主探索和人类观察视频等数据源,1X发现机器人自主策略rollout数据(特别是失败案例)对提升对齐度至关重要。缺乏失败数据会使模型过度乐观,出现错误估计抓取半径、忽视障碍物等问题。自主rollout能规模化收集多样失败模式,且其数据分布更贴近策略评估需求。实证表明,刻意制造的遥操作失败案例带有明显偏差,不利于识别策略rollout中的真实挑战。



使用特定任务数据训练,1X World Model的生成质量显著提升。面对不熟悉的任务和环境,世界模型(WM)因缺乏对象具体属性,难以准确建模对象交互。而特定任务数据能让WM根据当前任务的细微动态进行更新。随着任务数量增加和机器人行为多样性提升,1X World Model准确率全面提升。


结语


1X最新研究表明,1X World Model在预测机器人未来状态方面展现出惊人的扩展潜力。随着训练算力的提升和真实世界NEO机器人数据的不断积累,该模型对任务完成情况的预测准确率持续攀升,预示着机器人技术可能即将迎来关键的“数据奇点”——即AI生成的数据与真实数据难以区分,从而彻底改变机器人的训练方式。


1X World Model不仅解决了机器人领域的高质量数据稀缺问题,还提供了精准评估任务表现的统一框架,使通用智能机器人的发展迈入新阶段。正如大型语言模型(LLM)在文本生成领域达到“数据临界点”后迎来爆发式增长,1X World Model的进展可能让机器人技术经历类似的“GPT时刻”,加速家庭服务机器人的商业化落地,并重塑整个AI产业的竞争格局。


在通往自主智能的道路上,1X World Model正在成为关键推动力。它的成功不仅意味着更高效的机器人训练方式,更可能开启一个由AI生成数据驱动的新时代,让通用人形机器人从实验室走向现实生活的速度远超预期。


初版1X World Model介绍:

https://www.1x.tech/discover/1x-world-model


本次1X World Model更新:

https://www.1x.tech/discover/redwood-ai-world-model


来源:具身智能大讲堂





(文:机器人大讲堂)

发表评论