让文档更“聪明”!通义实验室ViDoRAG:开启视觉文档智能处理新纪元!

ViDoRAG 是一款专注于视觉文档的开源 RAG 系统,由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。

ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。

中科院、百度提出新架构:突破参数限制,实现高效推理

专注于AIGC领域,讨论微软&OpenAI、百度文心一言等大语言模型的发展与应用。提出Inner Thinking Transformer架构(ITT),通过动态分配计算资源和思考步骤提升模型性能而不增加参数,显著优于基线模型。

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

研究者提出了一种多元推理方法,结合多种模型和方法来提高推理模型在复杂基准上的准确率。该方法通过交互式定理证明器、代码自动验证和 best-of-N 算法等技术,显著提升了 IMO 组合问题和 ARC 谜题的解决能力,并解决了大量人类无法解答的问题。