RoboMamba:推理速度提升7倍,北大如何打造高效机器人多模态大模型?

在机器人技术快速发展的当下,如何让机器人理解视觉场景并执行动作,是操控领域的关键挑战。现有视觉 – 语言 – 动作(VLA)模型在基础任务上虽有进展,但在复杂任务中仍存在推理能力有限、计算成本高的问题。

一、项目概述

北京大学的研究团队重磅推出 RoboMamba,这是一款专为机器人量身定制的高效多模态大模型,旨在大幅提升机器人在复杂任务中的推理与决策水平

RoboMamba 的核心目标在于构建一个轻巧且高效的多模态大模型,为机器人在复杂环境中的任务规划与决策提供有力支撑。其具体目标如下:

1. 显著增强机器人在复杂任务中的推理能力,使其能够妥善处理非平凡的序列建模任务,精准应对各类复杂情境。

2. 全力削减机器人多模态大模型微调和推理过程中的计算成本,切实提高模型的实用性与运行效率,降低应用门槛。

3. 借助高效的微调策略,让模型能够在短时间内快速掌握多种操作技能,提升机器人的适应性和灵活性。

二、技术原理

(一)视觉与语言集成

RoboMamba 通过视觉编码器(如 CLIP)提取视觉特征,并通过多层感知机(MLP)将视觉信息转换为语言嵌入空间,实现了视觉数据与语言嵌入的对齐。这一设计使得 RoboMamba 不仅能够理解自然语言指令,还能准确解析视觉场景,从而具备视觉常识和机器人相关的全面推理能力。

(二)状态空间模型(SSM

RoboMamba 采用了 Mamba 作为其语言模型,Mamba 是一种基于连续系统设计的状态空间模型(SSM,通过隐藏状态将 1D 输入序列投影到 1D 输出序列。Mamba 引入了选择性扫描机制(Selective Scan Mechanism, S6),在每个 Mamba block 中形成其 SSM 操作,实现了更好的内容感知推理。

(三)高效的微调策略

为了使 RoboMamba 具备末端执行器操纵位姿预测能力,研究团队探索了一种使用简单 Policy Head 的高效微调策略。一旦 RoboMamba 具备足够的推理能力,它就可以通过极少的微调参数(模型的 0.1%)和微调时间(几十分钟)来掌握多种操作技能。这种高效的微调策略极大地降低了模型训练的时间和资源消耗。

三、功能特点

(一)强大的视觉与语言集成能力

RoboMamba 具备卓越的自然语言指令理解能力,能够精确解析复杂的视觉场景。在实际应用中,它能精准识别不同物体的形状、颜色、位置等特征,并结合语言指令进行深度推理。在一个智能家居场景中,它可以根据 “将客厅沙发旁的绿植搬到阳台上” 的指令,准确找到绿植并规划搬运路径,展现出强大的视觉常识和机器人相关推理能力。

(二)高效的推理与操作能力

RoboMamba 在维持线性推理复杂度的同时,展现出令人赞叹的上下文感知推理能力。实验数据显示,在通用和机器人评估基准测试中,它的推理速度比现有的机器人 MLLMs 快 倍。在执行复杂操作任务时,如工业生产中的零部件装配RoboMamba 能快速分析任务需求,精准预测并执行操作步骤,展现出强大的操纵位姿预测能力,确保操作的准确性和高效性。

(三)极低的训练成本

研究表明,一旦 RoboMamba 具备充足的推理能力,便能以极低的训练成本(仅调整模型 0.1% 的参数,花费几十分钟微调时间)掌握多种操纵位姿预测能力。这一特性极大地降低了模型训练的时间和资源成本,使得开发者能够快速针对不同任务对模型进行优化。在开发新的机器人服务项目时,可快速微调模型,让机器人适应新任务,提升开发效率。

四、应用场景

(一)复杂任务处理

RoboMamba 能够高效处理一系列复杂的机器人任务。在任务规划方面,它可以根据环境信息和任务目标,制定详细的操作步骤;在长程任务规划中,能够考虑到多个阶段的任务需求,提前规划路径和操作顺序;在可操纵性判断上,能迅速判断物体是否可被机器人操作以及如何操作;可操纵性生成功能使其能够根据任务需求生成合理的操作方案;

未来与过去预测功能则有助于机器人更好地理解任务流程,提前做好准备或复盘操作。在物流仓储场景中,RoboMamba 可以规划机器人搬运货物的最优路线,判断货物的可搬运性,并预测搬运过程中可能出现的问题。

(二)机器人操作

在模拟和现实世界实验中,RoboMamba 均展现出令人瞩目的操纵位姿预测能力。在工业制造领域,它能够精准控制机器人手臂的位姿,完成高精度的零部件装配工作;在医疗领域,可辅助医疗机器人进行精准的手术操作;在家庭服务场景中,能控制机器人准确地抓取和放置物品。在医院中,RoboMamba 可以控制手术机器人精准定位病变部位,进行精细的手术操作,提高手术的成功率和安全性。

五、快速使用

(一)克隆代码

git clone https://github.com/lmzpai/roboMamba.gitcd roboMamba

)安装依赖项

pip install -r requirements.txt

测试脚本

bash script/test.sh

目前,RoboMamba的模型文件尚未公开发布。如果需要模型文件,关注RoboMamba GitHub仓库(https://github.com/lmzpai/roboMamba) 的更新,等待模型文件的发布。

六、结语

RoboMamba 作为北京大学推出的高效机器人多模态大模型,通过其强大的视觉与语言集成能力、高效的推理与操作能力以及极低的训练成本,在机器人操控领域取得了显著的成果。它不仅提升了机器人在复杂任务中的推理能力,还极大地降低了模型训练的时间和资源消耗。随着技术的不断发展RoboMamba 有望在物流、制造、服务等多个领域发挥更大的作用,推动机器人技术的发展和普及。

七、相关资源

项目主页https://sites.google.com/view/robomamba-web

技术论文https://arxiv.org/abs/2406.04339

GitHubhttps://github.com/lmzpai/roboMamba

AI大模型+具身智能2025·系列


1.斯坦福团队开源!OpenVLA:小白也能搞机器人,100条数据就能微调!

2.CMU×上交大搞出「全能机器人」!开放场景任务成功率超90%


(文:小兵的AI视界)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往