视频理解归档

视觉理解大突破！PAM模型让AI”一眼洞穿万物”：分割+语义+描述，一键全知全能！

2025年6月15日23时作者极市干货

（Perceive Anything Model）的新型区域级视觉-语言模型，它能够同时完成图像和视

2025年6月12日16时作者 PaperWeekly

VidText 提出了一套全面的视频文本理解基准，覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务，评估模型在不同粒度上的表现，并揭示了影响性能的关键因素。

2025年6月7日14时作者小兵的AI视界

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型，通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习，在多个视觉推理基准测试中表现出色。

2025年5月7日16时作者新智元

谷歌发布升级版Gemini 2.5 Pro，横扫文本、视觉和WebDev Arena基准，编程能力超越Claude 3.7。新版模型支持代码转换、编辑及复杂的AI智能体工作流，引发开发者广泛关注。

2025年5月7日11时作者机器之心

Google DeepMind的Gemini 2.5 Pro更新提升了编程能力和多模态推理功能，可构建Web应用、游戏和模拟程序，并根据自然图像生成代码。

2025年3月1日16时作者 PaperWeekly

落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景（如短视频或静态图像）中又表现不佳。

2025年2月22日14时作者 Hugging Face

Ovis2是阿里巴巴提出的新型多模态大模型架构，显著提升了小规模和大规模模型的能力密度，并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能，并在多个数学推理榜单中排名前列。

2025年2月10日16时作者机器之心

北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video，其参数量不超过4B，在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集，并支持模块化设计和自定义训练策略，降低研究门槛。