SmolVLA:Hugging Face 开源的轻量级 VLA 模型,体积小 10 倍,性能却达 SOTA!
SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型,专为经济高效的机器人设计。它拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性,在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。
SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型,专为经济高效的机器人设计。它拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性,在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。
微软推出的Playwright MCP项目通过MCP协议实现了大模型与浏览器自动化交互。支持多种主流浏览器,并提供丰富的交互功能,如点击、拖动、输入文本等,广泛适用于自动化测试、网页自动化操作以及与大语言模型集成等多种场景。
字节发布轻量级多模态推理模型Seed1.5-VL,在60个主流基准测试中拿下38项第一,仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。
谷歌发布Gemma 3开源模型,提供多种尺寸支持,性能强劲且具备多语言处理能力,已在LMArena排行榜上获得好成绩。
香港大学提出MiniRAG,一种专为极简和高效设计的新型RAG系统,解决SLMs在语义理解和文本处理上的局限性。通过引入语义感知的异构图索引机制和轻量级拓扑增强检索方法,MiniRAG在使用SLMs时与基于LLM的方法性能相当,同时节省25%存储空间。
AWS 推出了 Nova 多模态生成 AI 模型系列,包括 Micro、Lite、Pro 和 Premier 四种文本生成模型,支持 15 种语言。Nova 型号是同类中速度最快之一,并且成本最低。