240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。

阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

NumPro通过为视频帧添加数字标识符的方式提升了视频大模型的时序定位能力。无需训练设置即可增强模型对事件发生时刻的理解,实验结果显示其显著优于现有方法,并且不影响模型通用视频理解能力。