五位具身智能顶流,挨个回应2025年机器人“热搜”

五家顶流具身智能公司探讨商业化落地议题。此外还包括,人形机器人和表演的必要性,以及如何通过VLA提升多模态。


富充

编辑苏建勋

2025年6月6日,北京智源大会,“具身智能”五大顶流公司——PhysicalIntellgence、宇树科技、银河通用、穹彻智能、北京人形机器人创新中心难得坐在一起。他们在不到40分钟的对谈里,几乎回应了当下机器人圈子的所有热点话题。

比如宇树科技创始人王兴兴就谈到了频繁上热搜的“机器人马拉松”,他认为不管是跑步、跳舞、端茶洗衣,都是具身智能能力版图中的一部分:

“具身智能的终极愿望是替代人类从事辛苦劳动,在它实现之前,我们希望能通过赛事和表演展示、普及已经达到的技术成果,这也可以带来一定的商业化。”王兴兴说。

银河通用创始人兼CTO王鹤则提出一个更具体的落地判断:具身智能的第一次高潮,可能是在凭VLA(视觉-语言-动作,Vision-Language-Action)模型做好“移动、抓取、放置”动作的机器人身上。

王鹤透露,银河通用已经在北京开出7家应用该技术的无人药店,24小时不间断捡药、对接骑手,年底计划扩张到100家。

而“关于机器人是否要做人形”的争议上,北京人形机器人创新中心总经理熊友军则更倾向站在人形阵营一侧。

在熊友军看来,从数据采集、人机交互到适应人类的工具、环境,人形都更具优势。“现在人形机器人的成本、技术不占优势,但是放在更长的时间范畴来看的话,我觉得会是很好的载体。”

此次会客厅由智源研究院院长王仲远主持。5位嘉宾分别为:Physical Intelligence联合创始人兼CEO Karol Hausman,宇树科技CEO王兴兴,银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤,穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军。

会客厅现场座无虚席。对话的第一个环节,是各家公司将自研机器人带入现场进行展示。刚获得《CMG世界机器人大赛·系列赛》机甲格斗擂台“AI策算师”冠军的宇树G1机器人现场表演“组合拳”,G1一上场,就收获不少观众起立拍照。

随后登台的是来自天工机器人的2.0版本。今年4月,天工1.0在全球首场人形机器人半程马拉松中夺冠,被证明是一台“能跑的机器人”;此次升级后的版本,主要增强了上肢的自由度、负重能力与灵巧性,在现场完成了“水果摆盘”的精细化服务演示。

银河通用的机器人Galbot展示了其在商业货架零售场景中的最新应用。去年智源大会上,该团队展示了机器人从货架上拿取盒装物体的能力;而今年,通过引入端到端的VLA技术,Galbot已经能够识别并抓取袋装薯片、桶装果冻等多种形态的商品,展现出更高的泛化能力。

这些现场演示展现了人形机器人当下的发展状况,也呼应了嘉宾们对具身智能的判断与预期:人形机器人因在数据采集、人机交互和环境适应方面的优势,将是具身智能的重要载体;未来随着AGI(通用人工智能)的发展,具身形态还将更为多样化。

而关于VLA模型的泛化能力,尽管当下仍面临机器人所处环境复杂等挑战,但通过合成数据、多场景训练等手段,其适应性与应用场景数量正在逐步提升。

以下为会客厅实录,经《智能涌现》整理编辑:

王仲远:大家知道今年具身智能比较破圈,主要原因是进行各种各样机器人的赛事。今年8月份,在北京市还将举办一场世界人形机器人运动会。

我想听听各位朋友对于运动会以及这种赛事活动的看法,它们是技术的验证场?还是“秀肌肉”的表演?

王兴兴:我们过去无论是在春晚上的机器人表演还是格斗比赛,其实是希望给大家真正展示一下目前全球的机器人技术发展情况,并且带动整个机器人行业的发展。

现在机器人还不能直接去家里干活,这也是现在全球范围内行业都面临的问题。

我们希望实现的终极目标是,希望人工智能可以替代人类从事辛苦的工作。在实现真正能干活的终极愿望之前,对于已经达到的技术成果,我们也是希望能通过赛事和表演进行展示和普及,以及实现一定商业化的作用。

我们的理念是具身机器人应该可以做各种动作,无论是跳舞、格斗,还是家里的端茶倒水、洗衣做饭,都是全身动作的一部分。

熊友军:这类赛事一方面是一个普罗大众能参与的盛会,让大家通过喜闻乐见的方式对机器人发展了解。另一方面,它也是很好的机器人训练场,毕竟它不同于实验室,而是生活中的场景,毕竟我们最终希望机器人走入真实的生产生活。

第三点,就是提供了客户了解机器人的桥梁,我想它也会加速机器人的产业化和在真实场景里做试点的应用。

王仲远:机器人通过比赛可以不断展示它的极限能力,我们更希望机器人可以进到工厂和家庭,帮我们解决一些实际的问题。想听听你们关于比赛和落地之间的看法?

王鹤:我觉得具身智能当下的目标,就是一定要推动产业化。

不仅是炫酷的技能,而是我们一定要保证机器人在一个新的环境中,在接触一个新的物品时,在需要成功率接近百分之百的情况下,能够不断的成功。

这也是银河通用、智源团队在做这件事情的思考,就是先把一些重要的技能打通。在这里主要指移动、抓取、放置。我们可以看到一些任务是由以上行为组合而成的,而我们关注的是超市、工厂、外卖前置仓等场景的一般性货架。

如果机器人可以在这些地方进行24小时服务,这就构成了具身智能真正走向产业化、服务人民创造生产力的开始。

更好消息是,今天我们通用的机器人已经在北京开了七家无人药店,24小时由人形机器人在里面捡药对接骑手。今年年底之前,我们计划在北京、上海开设100家这样的药店。

这样,我们希望用赛事去引领,配合上述有实际操作价值的技能,可以把具身智能的生态给转起来。

卢策吾:我同意王老师看法,赛事这个形式很好,可以看到机器人的性能,这是很好的起点。

类似刮激凌球这种对物理世界高持续性接触,已经被利用到各种实体生态加工等场景。如果后面能举办技能比赛的话,可以实现机器人在劳动方面的更多展示。

王仲远:接下来聊些技术。清华计算机系张钹院士此前指出,人形机器人不是具身智能和AGI的最佳落地。走向通用机器人,硬件要多样化,软件要通用性。

你们如何看待这个说法?

王兴兴:其实对我们公司来说,并不坚持要做人形机器人,我们也做过机器狗产品。我也相信到了AGI时代,各种各样的机器人形态会比现在多非常非常多倍。

但为什么现在大量具身智能的公司在做人形机器人,是因为现在很多数据采集是基于人的动作。所以机器人和人、人的上半身动作保持一致,就会方便数据采集。同时,包括跳舞等动作,如果做成其他样子会很难完成。

熊友军:人工智能不一定要局限于人形,但人形是一个比较好的载体。

我主要从未来市场状况角度考虑的,从市场应用层面,未来基数最大的应该是家庭等场景,现在工厂场景只是一个开胃小菜。这样来看,人形机器人使用量可能更大,因为它更像家庭伙伴、朋友,更容易被人接受。

从人机交互的角度来看,人形机器人可以更方便地使用人类的工具,更适应人类环境。我们不需要太多改造自己的场景。

虽然现在人形机器人的成本、技术不占优势,但是放在更长的时间范畴来看的话,我觉得人形机器人会是一个很好的载体。

王仲远:真正要让机器人有用,模型非常关键。今天上午的开幕式的主旨演讲和各位嘉宾的讨论都谈到了VLA视觉语言行动模型。王鹤老师也绍了,在无人驾驶领域VLA已经成为了很主流的解决方案。

但毕竟无人驾驶的操作空间是相对有限,机器人面临的环境和实际的行动数量非常多,大家对于VLA的泛化性怎么看?

卢策吾:V是看见世界,L是理解世界,A是改变世界,我觉得这是集合了机器人几件要干的事情。L很妙,语言是一个黏合剂,各种高层的语义都能把数据联结在一起。

但VLA目前存在的问题是,如果想做到通用的话,它的空间是很大的。它不像无人车,无人车有两个决策维度,而且不用碰撞,不用接触,场景也相对固定,所以整个空间会比较小。正因通用的空间很大,就要压缩它的不确定性。

相当于VLA是一个火锅底料,现在还只是清汤寡水,只能服务一部分人,要服务更多人,需要不停往里面加东西。

加东西本质是增加更多额外信息,使得这个事情更加的Powerful,而且能够兼容这个框架里加更多的信息,在端到端的模型里压缩它的空间。

我们可以做的事情,就是对于物理世界的理解,其实视觉是在偷偷理解整个世界。如果我们能够更好地理解这个世界,或许能够进一步压缩空间。

在我们下个月发布的第二版大脑里加了很多东西,比如进一步压缩空间的话,会有一个数字基因的东西,因为仿真合成很重要,产生数据资产很关键,各种操作仿真数据产生很好的数据模型,力反馈其实又带来新的模型,其实一步一步再压缩,会使得数据量需求大大下降。

要找到好的模态、压缩空间,需要找到更聪明的理解世界的方式,将VLA一步一步推进到通用的拐点。

王鹤:自动驾驶验证了一件事情,就是端到端的方案有更好的扩展性,它可以真正驱动模型,而不是靠无穷不尽地制定规则。自动驾驶这条路走了很多年,但现在能铺开的自动驾驶汽车不是通过模块化技术,而是端到端。

对VLA来说,视觉观测是最主要的信息来源,那么模型在端到端输出动作的时候,不经过中间产物。这样,端到端能够真正充分吸收数据背后的知识,让它发挥出最大的性能,而不受制于模块化方案中间阶段的错误、误差以及各种规则构成问题。

VLA应该说是具身的年度热点,但它到底要突破什么,我想是有不同观点的。有些人认为VLA应该把人类能做的一切事情在里面都快速的做进去,然后形成一个基座模型。

从这个角度上讲,我觉得是有点太着急了,因为我们人类除视觉的输入之外,我们还有味觉、触觉、嗅觉、听觉以及对温度的感知。所以VLA只能是一个起点,如果想达到人类级别的具身智能,那还需要不断融入新模态。

那VLA现在最适合干什么呢?我认为是移动、抓取、放置。这几个技能主要依赖视觉为主,末端加入数学或者力学传感器,就能在工业、商业有非常广泛的应用。我们先把这样的VLA先做好,在各种环境部署进去,就有可能见证具身智能第一次真正高潮的到来。

王仲远:Karol Hausman,对你来说跨本体的VLA现在在实践过程中有什么样的瓶颈是绕不过去的,抑或我们等待就是时间和数据的规模呢?

Karol Hausman:最大的瓶颈是现在的模型有一些完成结果并不是我们需要的,我想应该有一些算法的提升,这是必需的。因为现在数据是海量、无尽的,要使用现在的算法来运用这些无尽的数据,所以我们的算法需要提升和改善,并且也需要新的技术。这些是我们现在正在做的,也是我们正在解决的。

现在π5的出现已经能够更好地处理,并且能够更好地获取数据。所以我认为现在更多还是算法的问题,并非数据的问题。

封面来源企业官方


👇🏻 AI👇🏻
36AI
👇🏻  👇🏻

(文:智能涌现)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往