谷歌VS Figure AI VS成都:人形机器人的“脑”力角逐

全球人形机器人产业正迎来“大脑”技术革命,2025年开年短短三个月内,美国机器人初创公司Figure AI和谷歌DeepMind都先后公布了各自的通用具身智能大模型,同时,中西部首个人形机器人创新中心——成都人形机器人创新中心,也发布了国内首个基于3DSGs的人形机器人规划推理执行系统Raydiculous—1。


谷歌DeepMind、Figure AI与成都创新中心正以不同技术路径争夺产业标准话语权,人形机器人的“脑”力角逐已经拉开帷幕。

           

▍谷歌Deep Mind:具身大模型的“通用智能野心”


谷歌DeepMind于2025年3月发布的基于Gemini 2.0的全新机器人AI模型——Gemini Robotics和Gemini Robotics-ER,在机器人泛化能力和空间推理方面表现出色,适配多形态机器人平台,目标构建类似安卓的通用机器人生态。


Gemini Robotics主要有三个方面的提升:


泛化性:Gemini Robotics是一款基于视觉-语言-动作(VLA)的端到端模型,能够处理全新的、训练中从未遇到过的任务。例如,向机器人展示一个小型玩具篮球和篮网,并指示“灌篮”,尽管此前从未接触过这些物体,但仍然理解了指令并完成了动作。Deep Mind称其泛化能力比现有模型提高了一倍。



交互性:建立在Gemini 2.0基础上的Gemini Robotics拥有良好的语言理解能力。例如,用户通过自然语言指令“将香蕉放入透明容器”进行指示,机器人就能够识别出目标并完成任务,即使容器移动后也能实时调整路径。    


灵巧性:Gemini Robotics能够精确操作复杂多步骤任务,如双臂协作折纸、将零食放入密封袋。



Gemini Robotics-ER是一款视觉-语言模型(VLM),专注于增强空间推理能力。例如,面对咖啡杯时,它能识别适合抓取的杯把位置,并规划安全的接近路径。

           

Figure AI:端到端融合的“仿人类直觉”


硅谷明星企业Figure AI专注通用人形机器人研发,在终止与OpenAI合作后,2025年2月发布了一款名为Helix的端到端视觉-语言-动作(VLA)通用控制模型,泛化能力、动作精度与实时性都显著提升,已在宝马工厂进行小规模试点。主要有以下特点:


双系统架构Helix采用“系统1(S1)+系统2(S2)”架构,S2系统通过视觉语言模型解析指令,规划任务目标。(如“整理工具箱”分解为“定位-分类-收纳”),S1系统以毫秒级响应生成动作(如抓取易碎物品)。


跨物体泛化:Figure AI表示,Helix可直接部署在机器人自带的低性能芯片上,利用预训练的常识知识迁移实现跨物体泛化,而非依赖物体特征库,例如通过“沙漠”语义关联识别仙人掌玩具。



多机器人协作:Helix能够同时支持两台机器人协作,共享神经网络权重和实时环境感知数据,例如,两台机器人默契完成冰箱物品分类,甚至主动调整受力点协同搬运重物。

      

         

成都创新中心:人形机器人的“中国方案


成都人形机器人创新中心是中西部首个人形机器人创新中心,成立之初就将“大脑”技术作为核心攻关方向。凭借“根技术创新”,成立不到一年就形成了众多国际一流国内顶尖阶段性成果。2024年已发布全国首个基于视觉扩散架构任务生成模型(R-DDPRM),国内首个机器人多模态模型(RRMM)+双臂协作系统(RTACS),国内首个基于扩散架构高速推理模型(R-DDIRM)。


2025年3月,重磅发布了全国首个无需人工干预、无需遥控的自主完成跨空间人形机器人任务规划推理执行系统Raydiculous—1能够完成动态环境下的长周期复杂任务(如从客厅到厨房取物,再到卧室整理),突破单一场景限制。这一成果在欧美团队采用的对算力强依赖的端到端VLA架构之外验证了新的基于3DSGs技术路径,具有“跨场景”长视野”“轻量型”的特点。


跨场景:相比于前面提到的Figure AI展示其机器人在“单一空间”的任务推理执行系统。成都人形机器人创新中心发布的Raydiculous—1系统通过构建三维场景图(3DSGs),使机器人能够理解“厨房”“卧室”等空间逻辑,并实现跨空间(如厨房-走廊-卧室)的连续任务执行。例如,机器人可自主穿越多个房间完成取物、操作等任务。结合VSLAM导航技术,系统能实时感知环境变化(如房门开启/关闭、物体位置移动),并通过自主学习机制调整路径规划。在实测中,机器人成功处理了中途环境突变的情况,验证了其跨场景鲁棒性。



长视野:与在单一空间里面完成任务规划相比,系统采用长视野(Long Horizon)任务规划引擎可在规划层完成任务的分解,具备自主学习与理解场景和任务、长视野规划任务的特性。例如,机器人在卧室时,就能够完成“走到门口→打开门→走到厨房→打开冰箱→取出饮品→关闭冰箱门→返回卧室”的整套动作任务规划。通过分层任务规划机制,机器人将复杂任务拆解为导航、感知、执行等子模块,并协调各模块完成远距离的连续动作序列。这种“化整为零”的架构使其在跨空间任务中仍能保持高效性。    




轻量型:与谷歌和Figure AI依赖云端大模型的VLA(视觉-语言-动作)框架不同,成都创新中心的方案采用将计算负载分散至视觉建图、语义理解等专业化模块,端侧推理功耗大幅降低,响应时间毫秒级(无网络延迟)。通过模块化设计(如调用VSLAM导航与感知模型),系统避免了千卡集群的算力依赖,中等消费级显卡即可支持,硬件成本仅为同类方案的1/3,更适用于家庭服务、教育陪伴等消费级场景。

           

技术路径对比


总结一下,谷歌DeepMind基于通用大模型(如Gemini),强化了空间推理和泛化能力,适配多硬件平台,依赖云端算力,目标打造“机器人安卓生态”。Figure AI的Helix模型采用端到端融合的方式,通过双系统架构(快思考与慢思考协同),专注工业场景的实时响应与高精度操作。而成都创新中心基于3DSGs技术,构建轻量化本地化系统(Raydiculous-1),通过模型小型化降低算力需求,通过网络结构降低数据依赖,为家庭服务、养老医疗等民生领域提供更优解决方案。    


他们的核心差异在于:


算力需求方面,谷歌依赖云端千卡集群,成都本地化部署模型则大幅降低功耗,成本优势显著;联网需求方面:Figure与成都致力于减少云端依赖,谷歌需联网协作;规划能力方面,成都方案具有长视野跨空间的规划能力,能够完成长周期的复杂任务,有着“更低成本、更高安全、更强适应”的技术优势。


尽管技术路径不完全相同,三家团队在基础架构层面均采用“规划-执行”分层策略(即高层任务解析与底层动作控制的协同框架)均致力于提升机器人在日常事务与家务劳动中的能力,通过人工智能与机器人技术的融合,推动机器人完成任务的全智能化与自主化。          


结语:谁将定义人形机器人的未来?


这场“脑”力角逐的本质,是不同技术路线对同一目标(通用具身智能)的求解,同时也是技术路径与产业生态的双重竞争。人形机器人“大脑”技术不仅是算法竞赛,更是国家高端制造能力的试金石。成都的实践证明,通过根技术创新(如无图导航、扩散任务模型、3DSGs架构),中国完全可能绕开欧美技术霸权,在家庭、养老、医疗、特种作业等领域开辟万亿美元级市场,为全球市场提供高经济性、高可靠性的新选择。这场终局之战的胜者,必将属于那些以技术自主性为矛、以产业生态为盾的破局者。 



来源:人形机器人发布


(文:机器人大讲堂)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往