让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。

让文档更“聪明”!通义实验室ViDoRAG:开启视觉文档智能处理新纪元!

ViDoRAG 是一款专注于视觉文档的开源 RAG 系统,由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。