SmolVLA:Hugging Face 开源的轻量级 VLA 模型,体积小 10 倍,性能却达 SOTA!

SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型,专为经济高效的机器人设计。它拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性,在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

文章讨论了自变量机器人如何通过统一模态架构,实现具身多模态推理能力。该架构消除视觉、语言和行动之间的人为边界,并采用生成模型进行跨模态学习,最终让机器人具备符号-空间推理、物理空间推理及自主探索与协作的能力,接近人类的直觉操作方式。

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

CMU 和 Google DeepMind 的研究提出了一种名为 ICAL 的方法,通过使用低质量数据和反馈来生成有效的提示词,改善 VLM 和 LLM 从经验中提取见解的能力,从而解决高质量数据不足的问题。

NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架

本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。研究针对视觉-语言模型在联邦学习中的提示词微调提出理论分析框架,引入特征动力学理论并设计了PromptFolio机制,在平衡全局与个性化提示词的同时提升性能。

NeurIPS’24|VL-SAM:北大出品,完全无训练的开放式检测分割模型

北大团队提出VL-SAM,结合视觉-语言模型和Segment-Anything模型,通过注意力图作为提示解决开放式物体检测与分割任务,性能在LVIS和CODA数据集上良好。