2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

文本丰富的图像理解(TIU)涉及感知和理解两个核心能力。MLLMs通过模态对齐、指令对齐和偏好对齐等方法进行训练,并使用多样化的数据集和基准测试评估性能。

聪明人已经抓住DeepSeek风口发表SCI了

科研圈又有新进展!意大利研究团队借助DeepSeek模型在知名期刊发表论文,从投稿到接收仅用一天。清华大学出版《DeepSeek:从入门到精通》,详细介绍这一深度学习和人工智能工具的使用方法。此外,还有大模型实战系列课和华为全联接大会上的大模型免费试用机会。