视觉编码器归档

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

2025年6月27日11时作者机器之心

端侧多模态大模型 Gemma 3n。
模型、权重：https://huggingface.co/co

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

2025年5月19日23时作者极市干货

VAE 和 LDM，以实现最佳生成性能？
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长

2025年5月14日16时作者量子位

字节发布轻量级多模态推理模型Seed1.5-VL，在60个主流基准测试中拿下38项第一，仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

2025年4月18日14时作者小兵的AI视界

北京大学团队推出RoboMamba，一款高效多模态机器人模型，旨在提升复杂任务的推理与决策能力。其核心目标是增强视觉和语言集成能力、优化微调策略，并降低训练成本。

2025年4月17日16时作者机器之心

伯克利联合英伟达提出PS3视觉编码器，首次在4K超高分辨率下高效预训练，并引入高分辨率基准测试集4KPro。该方法显著提升了高清场景下的表现和效率。

2025年4月7日14时作者小兵的AI视界

近期开源的OpenVLA模型通过高效的参数利用和卓越性能推动了机器人技术的发展。基于Llama 2语言模型和融合视觉编码器，它能够将自然语言指令转化为精确的机器人动作。支持在消费级GPU上进行微调，并实现高效服务。应用场景包括家庭服务机器人、工业机器人及教育研究等领域。

2025年3月18日14时作者老刘说NLP

一个是，AI搜索进展，哥伦比亚大学最新研究显示，AI搜索错误率高达60%，这个结论倒不奇怪，
结论