多模态推理归档

一机迷航，双机成行！北航高低无人机协同导航方案：高空掌全局+低空查细节，复杂场景不迷航

2025年7月27日23时作者量子位

北航刘偲教授团队提出高低无人机协同导航新范式，两台无人机分工配合完成复杂环境中的目标定位任务。

2025年7月26日12时作者 APPSO

Meta 宣布清华校友赵晟佳将担任超级智能实验室首席科学家。此前赵晟佳已与多位顶尖学者合作，并在 OpenAI 深度参与多项研究工作。

2025年7月25日23时作者 APPSO

阶跃星辰发布新一代基础大模型 Step 3，强调多模态推理能力和国产芯片友好性。该模型已在多个榜单上表现出色，并将在7月31日开源。同时，阶跃成立「模态生态创新联盟」，联合多家国产芯片厂商推动大模型落地应用。

2025年7月19日14时作者小兵的AI视界

昆仑万维Skywork-R1V3-38B开源多模态模型在高考数学、物理等跨学科任务上超越同规模闭源模型，实现视觉-语言推理新标杆。支持图像文本联合解析、多图融合、教育级链式思维展示等功能。

多模态理解与生成新方法ThinkDiff在ICML2025上提出，仅需少量数据和计算资源，让扩散模型具备推理能力，并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力，大幅提高图像生成质量。

2025年6月23日16时作者量子位

模型推理能力再添例证。
来自上海创智学院、上海AI Lab的MM-Eureka系列工作提出了新的强化

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月13日14时作者小兵的AI视界

阿里巴巴通义大模型团队推出VRAG-RL多模态RAG推理框架，通过视觉感知驱动和强化学习优化提升VLMs处理视觉丰富信息的能力。支持多轮交互、动态调整策略等，应用场景包括智能文档问答、视觉信息检索、多模态内容生成等。

2025年6月12日16时作者新智元

OTA模型，256k对话窗口，深度思考最长上下文。它不仅能看会想，还能动手操作GUI，
国内最有潜力

2025年6月10日16时作者 PaperWeekly

ReasonMap 是首个聚焦于高分辨率交通图的多模态推理评测基准，用于评估大模型在理解图像细粒度结构化空间信息方面的能力。