重新定义检索!一款真正“跨模态”的 RAG 模型来了!用音频搜视频、文本找音乐!
ColQwen-Omni是基于ColQwen2和Qwen2-VL的开源多模态检索增强生成模型,支持跨模态检索、音视频直处理等特性,单次查询<100ms,30分钟音频10秒处理。其核心亮点包括跨模态检索、音视频直接处理保留情感/语气细节以及超快检索等功能。
ColQwen-Omni是基于ColQwen2和Qwen2-VL的开源多模态检索增强生成模型,支持跨模态检索、音视频直处理等特性,单次查询<100ms,30分钟音频10秒处理。其核心亮点包括跨模态检索、音视频直接处理保留情感/语气细节以及超快检索等功能。