视觉感知驱动的多模态推理:阿里通义提出VRAG-RL,定义下一代检索增强生成 下午4时 2025/06/11 作者 PaperWeekly VRAG-RL 是一种基于强化学习的视觉检索增强生成方法,通过引入多模态智能体训练,实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。