2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

文本丰富的图像理解(TIU)涉及感知和理解两个核心能力。MLLMs通过模态对齐、指令对齐和偏好对齐等方法进行训练,并使用多样化的数据集和基准测试评估性能。

DeepSeek开源连击、Claude编码升级、GPT性能迷局,系统解读大模型诸神之战 | 万有引力

大模型竞争白热化,DeepSeek开源多项工具;阿里发布QwQ-Max-Preview;腾讯混元发布新一代Turbo S;OpenAI推出GPT-4.5。各模型展示技术优势和挑战,开发者需在有限资源下利用开源工具。

阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步

阿里通义实验室提出PC-Agent框架,实现复杂PC任务自动化。该框架通过主动感知模块和层次化多智能体协作结构处理跨应用工作流指令。实验表明其在复杂任务上表现优于现有方法。