Qwen2.5-VL可以识别超过1小时的长视频了

Qwen2.5-VL可以识别超过1小时的长视频了。Qwen2.5-VL 已经发布了，目前官方放出来3个大小的模型：

Qwen2.5-VL-72B-Instruct-AWQ
Qwen2.5-VL-7B-Instruct-AWQ
Qwen2.5-VL-3B-Instruct-AWQ

这次的主要提升有：

视觉理解：提高了图像中识别和分析对象，文本，图表和布局的能力。
代理功能：充当能够推理并与工具动态交互的视觉 Agent（例如，使用计算机或电话）。
长期的视频理解：可以了解超过1小时的视频，并查明相关段以进行事件检测。
视觉本地化：准确地识别并在具有边界框或点的图像中定位对象，从而提供稳定的JSON输出。
结构化输出生成：可以为复杂数据（例如发票，表单和表格）生成结构化输出，可用于金融和商业等领域。

参考文献：
[1] https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct
[2] https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct
[3] https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct
[4] https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct-AWQ
[5] https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct-AWQ
[6]https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct-AWQ

（文：NLP工程化）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复