视频理解归档 - 第2页共2页 - 每时AI

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

2025年2月6日12时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型：VideoLLaMA 3

2025年1月24日16时作者 NLP工程化

阿里巴巴达摩院发布VideoLLaMA3多模态基础模型，支持看懂视频内容、理解图片并能对话，基于Qwen2.5架构。

TPAMI-2024 Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

2025年1月17日16时作者机器之心

Uni-AdaFocus 是一个通用的高效视频理解框架，通过降低时间、空间和样本冗余性实现了统一建模，并已在多个数据集上验证了其有效性。