SmolVLA:Hugging Face 开源的轻量级 VLA 模型,体积小 10 倍,性能却达 SOTA!

随着人工智能技术的飞速发展,机器人技术逐渐从实验室走向实际应用。然而,传统的机器人系统往往依赖于复杂的编程和高昂的硬件成本,限制了其广泛应用。近年来,基于视觉语言模型(VLM)的机器人技术成为研究热点Hugging Face开源的SmolVLA项目,以其轻量级、高效的特点,为机器人技术的普及和应用提供了新的可能性。

一、项目概述

SmolVLA是由Hugging Face开源的一个轻量级视觉语言行动(VLA)模型,专为经济高效的机器人设计。该模型拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。SmolVLA基于开源数据集训练,数据集标签为“lerobot”,并引入了异步推理堆栈,显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色,适用于多种机器人应用场景,如物体抓取与放置、家务劳动、货物搬运等。

二、技术原理

(一)视觉语言模型(VLM

SmolVLA使用SmolVLM2作为其VLM主干,包含一个SigLIP视觉编码器和一个SmolLM2语言解码器。视觉编码器通过像素洗牌操作限制每帧图像的视觉Token数量为64,大大减少了处理成本。同时,SmolVLA跳过VLM中的一半层进行计算,将计算成本减半,同时保持了良好的性能。

(二)动作专家

动作专家是一个轻量级的Transformer模块,包含约1亿参数。它基于VLM的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

(三)异步推理

SmolVLA引入了异步推理策略,将动作执行与感知和预测分离。在这种策略下,机器人可以一边执行当前动作,一边处理新的观察并预测下一组动作,消除了推理延迟,提高了控制频率。


三、主要功能

(一)多模态输入处理

SmolVLA能够处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。

(二)动作序列生成

模型包含一个动作专家模块,能够基于视觉语言模型(VLM)的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

(三)高效推理与异步执行

SmolVLA引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。


四、应用场景

(一)物体抓取与放置

SmolVLA可以控制机械臂完成复杂的抓取和放置任务。例如,在工业生产线上,机器人需要根据视觉输入和语言指令,准确地抓取零件并将其放置到指定位置。

(二)家务劳动

SmolVLA可以应用于家庭服务机器人,帮助完成各种家务劳动。例如,机器人可以根据自然语言指令,识别并清理房间中的杂物,或者将物品放置到指定位置。

(三)货物搬运

在物流仓库中,SmolVLA可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状,结合语言指令,生成最优的搬运路径和动作序列,提高货物搬运的效率和准确性。


五、快速使用

(一)环境安装

在开始使用SmolVLA之前,需要安装LeRobot库以及相关的依赖项。可以通过以下命令安装:

pip install -e ".[smolvla]"

(二)模型微调

可以使用预训练的SmolVLA模型进行微调,以适应特定的任务。以下是一个微调的示例命令:

python lerobot/scripts/train.py \  --policy.path=lerobot/smolvla_base \  --dataset.repo_id=lerobot/svla_so101_pickplace \  --batch_size=64 \  --steps=20000 \  --output_dir=outputs/train/my_smolvla \  --job_name=my_smolvla_training \  --policy.device=cuda \  --wandb.enable=true


(三)模型部署

SmolVLA支持在消费级GPU甚至CPU上部署,可以在MacBook等设备上运行。部署时,可以使用LeRobot框架提供的工具进行快速部署。


六、结语

SmolVLA作为Hugging Face开源的轻量级视觉语言行动模型,以其高效、轻量的特点,为机器人技术的普及和应用提供了新的思路。通过多模态输入处理、高效推理和异步执行等特性,SmolVLA在多种机器人应用场景中表现出色。未来,随着技术的进一步发展,SmolVLA有望在更多领域发挥重要作用。


七、项目地址

Hugging Face模型库https://huggingface.co/lerobot/smolvla_base

arXiv技术论文https://arxiv.org/pdf/2506.01844


(文:小兵的AI视界)

发表评论