灵活性和速度接近人类!Figure机器人进厂打工,内置Helix模型升级实现超强可扩展性

文丨丁灵波
有“美版宇树”之称的Figure机器人公司日前释放了一条时长超60分钟的连续演示视频,不是跳舞和格斗炫技,而是一台Figure 02型人形机器人在物流线上默默分拣包裹,其处理方式非常接近真人。

Figure创始人Brett Adcock表示:“欢迎观看我们发布过的最无聊的视频。”

该公司的目标是大规模生产人形机器人,并使之能够像人类一样完成真正有用的工作,这意味着机器人每天要在岗持续工作数小时,并保持不低于人的处理速度和性能目标,这对商业落地来说非常重要。

在演示视频中,快递分拣流水线上有大量不同的包裹种类,需要机器人实时输出微妙的行为策略进行灵活处理,而且克服偶尔出现的错误,展现了其内置VLA模型“Helix”近期的技术进步,Figure公司称之为:Scaling Helix。

不过,这种人形机器人在物流场景分捡的实用性引起了一些争议。

有网友吐槽,虽然流畅度相比同行(如特斯拉Optimus)有大幅改进,但目前人形机器人处理任务的速度仍不够快,根本无法适应现代自动化生产的处理需求,纯属作秀,分拣场景只需要传送带和扫描仪就能满足。

乐观派则认为,这可能是它有史以来最慢的一次,随着时间推移和技术进步,它们的速度只会越来越快,最重要的是它不睡觉,不抱怨,不会争吵,不会闹情绪,可以扩展多种应用场景。按美国工人平均年薪约6.5万美元,投入约2080小时算。一年有8760小时,相当于人类的四倍多,即使机器人的工作速度比人类慢三倍,它每年也能完成约2900个相当于人类的小时,大约是人类劳动的1.5倍或近10万美元的价值。

手法娴熟背后的技术要点

Figure官方表示,Helix现在可处理多种类包装,并且其灵活性和速度已接近人类水平,实现完全自主的包裹分拣。

1、更多包装类型——机器人可靠地操作可变形塑料袋、扁平信封或快递硬盒,并根据每种外形尺寸实时调整其抓握策略,动态地处理物体。

2、更快的吞吐量——尽管处理的包裹类型更加复杂多样,但执行速度从约每包裹5.0秒缩短至每包裹4.05秒,在保持准确性的同时实现了约20%的处理速度。

3、更高的条形码扫描成功率——通过视觉和控制,运输标签现在能够正确定向扫描,成功率约为95%。

4、自适应行为——机器人展现出从演示中学习到的微妙行为,例如轻轻拍打塑料邮件以抚平皱纹来改善条形码的读取。

看似普通的分拣流水线,对于机器人来说,每个时间步骤中包裹和场景都在不断变化,对其内置的“视觉-语言-动作”(VLA)模型来说是种挑战,Figure团队通过数据扩展和模型架构改进了Helix模型,重点是对视觉运动策略的架构增强。

据介绍,Helix引入了新的记忆和感知模块,使控制策略更加情境感知和稳健,能够更好地感知外部世界随时间的变化,并感受自身行为,从而补充了初始部署中建立的视觉和控制基础。

视觉记忆:Helix的策略现在能够保持对周围环境的短期视觉记忆,而非仅仅基于瞬时摄像机帧,具体来说,该模型可以从一系列近期视频帧中合成特征,从而获得场景的时间扩展视图。本质上,视觉记忆赋予Helix一种时间上下文感知能力,使其能够在多步骤操作中更具策略性地采取行动。

状态历史:近期状态历史记录增强了Helix的本体感受输入,从而实现了更快、更灵敏的控制。重要的是,状态历史记录保留了上下文,因此即使更频繁地重新规划,策略也不会丢失其当前操作的轨迹或破坏操作的稳定性。最终结果是能够更快地响应意外或干扰:如果包裹发生移动或尝试抓取时未完美落地,Helix会以最小的延迟纠正中间运动,显著缩短了每个包裹的处理时间。 

力反馈:Figure 02机器人对其环境及其操控的物体施加的力现在已成为输入神经网络状态的一部分,这些信息使策略能够检测接触事件并进行相应调整。这提高了成功率和运动一致性,使系统对物体重量、刚度和位置的变化具有更强的鲁棒性。

最终,Figure 02机器人的分拣手法和操作熟练度上了个大台阶,离能实际干活儿的目标越来越近了。

评估展现的进化潜力

为了量化改进的影响,Figure团队在不同的训练数据方案和模型配置下,对Helix模型的物流性能进行了受控评估。

首先,研究扩展人类演示数据量对机器人熟练程度的影响,通过比较分别基于大约10、20、40和60小时的演示轨迹(具有相同的网络架构和超参数)训练的模型。

从10小时到60小时的训练演示来看,每件包裹平均处理时间从约6.84秒缩短至4.31秒,吞吐量提升了58%,条形码识别成功率也从88.2%攀升至94.4%。这些回报表明,该模型仍处于低数据量阶段,随着数据规模的扩大,模型性能将持续稳步提升。

其次,评估架构增强功能(视觉记忆、状态历史和力反馈)对性能的贡献。本次比较中的所有模型均基于相同的60小时数据集进行训练,因此任何指标差异都反映了新功能的存在与否。

单目基线模型缺乏深度和时间上下文,抓取位置错误,并且经常长时间停顿,因为它无法判断自己在某个状态下停留了多长时间。添加立体视觉解决了深度问题——拾取更加清晰,吞吐量也提高了,但长时间停顿的问题仍然存在,解决停顿问题的一种方法是增加动作块的长度,但这会以缩短反应时间为代价。
Helix引入的视觉记忆可以让策略回忆起袋子是否已经被翻转过,或者标签是否之前可见,从而消除了冗余的重新定位,将周期缩短了半秒。添加状态历史和力反馈后,机器人获得了时间流逝和触觉感知:它不再停滞,可以更好地调节对硬质盒子的抓握力,并更好地控制对周围环境施加的力以避免失去平衡,从而将条形码的首次识别成功率提高到94%。
最后,研究人员通过将Transformer解码器头参数数量增加50%来扩展网络,利用这些更丰富的输入,将平均处理时间缩短至4.05秒,同时保持准确率在92%以上。
网友们表示,很想看Figure机器人24/7全天候运行的工作直播,喜欢这个视频的原因之一是,其真实展现了不再需要人类做那些简单重复却又必要的事情,而是去做更有价值、更有尊严的事!
人形机器人进厂打工争议
在2025年上半年,工业场景仍是各家人形机器人的核心试验场。
例如,波士顿动力公司被现代汽车集团收购后,频频展示在车间搬运汽车零配件的应用,特斯拉的人形机器人Optimus则在厂子里学习抓电池或打扫卫生。
在国内,优必选宣布其人形机器人WalkerS1进入吉利、北汽、比亚迪等多家车企进行任务实操,宇树科技也宣布与长城汽车等合作在智能制造领域进行探索,造车新势力如小鹏汽车则自己入局打造人形机器人Iron投入生产线。
尽管概念很火热,但在工业场景下,人形机器人载体的真实有效性和ROI(投资回报率)仍存在很大争议,被认为是炒作成分过多的“伪命题”。
首先,人形机器人的双足行走结构、仿人类手臂和多关节设计等,效率未必有传统轮式/履带式机器人和协作机械臂等专用设备效率高。
此外,双足行走的动态平衡控制未完全成熟,尤其在负重(如搬运50kg货物)或地面不平整时极易摔倒,工业场景对可靠性要求很高,一旦停机可能导致生产线堵塞瘫痪。
而且整体来看,人形机器人研发制造成本和维护成本高,高强度工作下,其复杂的关节结构导致故障率较高,而传统工厂机械臂和AGV搬运设备等多为模块化设计,更换部件即可快速恢复运行。
目前,除了在租赁市场和节目表演等场景有所升温,人形机器人仍处于“理想很丰满,现实很骨感”的商业化困境,距离大批量落地应用任重而道远。

-END-

(文:头部科技)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往