轻量级归档 - 每时AI

RapidRAW：处理 RAW 照片拥有专业级的图像编辑功能

2025年7月14日8时作者 NLP工程化

RapidRAW 是一个开源工具，安装包仅 30MB，提供专业级的图像编辑功能，包括 GPU 加速、AI 智能蒙版和生成式编辑等，支持多种相机格式及高效的图片库管理。

SmolVLA：Hugging Face 开源的轻量级 VLA 模型，体积小 10 倍，性能却达 SOTA！

2025年6月19日14时作者小兵的AI视界

SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型，专为经济高效的机器人设计。它拥有4.5亿参数，能够在消费级GPU甚至CPU上运行，支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性，在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。

nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库

2025年6月18日14时作者 Hugging Face

它是一个轻量级
工具包
，让你可以在
免费的 Colab Notebook
上启动 VLM 训练。

Playwright MCP：微软打造的AI自动化利器，一键搞定浏览器操作

2025年6月6日14时作者小兵的AI视界

微软推出的Playwright MCP项目通过MCP协议实现了大模型与浏览器自动化交互。支持多种主流浏览器，并提供丰富的交互功能，如点击、拖动、输入文本等，广泛适用于自动化测试、网页自动化操作以及与大语言模型集成等多种场景。

SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案

2025年6月5日14时作者 Hugging Face

参数) 的开源视觉 – 语言 – 动作 (VLA) 模型，专为机器人领域设计，并且可以在消费级硬件

看图猜位置不输o3！字节发布Seed1.5-VL多模态推理模型，在60个主流基准测试中拿下38项第一

2025年5月14日16时作者量子位

字节发布轻量级多模态推理模型Seed1.5-VL，在60个主流基准测试中拿下38项第一，仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

谷歌轻量级、高性能的Gemma3开源模型，最大的 Gemma 3 27B 仅需单个 GPU

2025年3月13日8时作者 NLP工程化

谷歌发布Gemma 3开源模型，提供多种尺寸支持，性能强劲且具备多语言处理能力，已在LMArena排行榜上获得好成绩。

Meta开源的一款时间序列分析工具：Kats

2025年1月10日8时作者 NLP工程化

Meta开源时间序列分析工具Kats，支持统计特征理解、异常检测和未来趋势预测，通用且可扩展。