重新定义检索!一款真正“跨模态”的 RAG 模型来了!用音频搜视频、文本找音乐!

ColQwen-Omni是基于ColQwen2和Qwen2-VL的开源多模态检索增强生成模型,支持跨模态检索、音视频直处理等特性,单次查询<100ms,30分钟音频10秒处理。其核心亮点包括跨模态检索、音视频直接处理保留情感/语气细节以及超快检索等功能。

经典问题之Graph可以如何与Agent结合?从单点到全面归纳

今天是2025年7月12日,星期六,北京,雨。Graph和Agent的结合是社区的重要方向之一。文章回顾了Graph与Agent结合的相关技术进展,包括使用图数据库提升代理记忆管理、优化多Agent协调以及实现基于知识图谱的任务规划与执行等方向。

技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式

2025年7月9日,北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告,并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下,业务know-how的重要性,指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。

2025年AI Agent大爆发,全面拥抱智能体

2025年是Agent从概念走向主流的关键时刻。Agent是一种自主智能体,能感知环境、决策并进化。它对程序员来说就像“超级外挂”,具备感知-决策-执行闭环和工具调用能力。为了拥抱Agent,开发者需要进行认知升级和技能重构,并通过相关课程和技术资料快速掌握技术原理。