最新125种多模态大模型技术全面综述

6月有两篇关于多模态大型语言模型（MLLMs）技术综述的最新论文，涉及2021年至2025年开发的至少125个MLLMs：

第一篇论文提供了一个全面的视角，展示了MLLMs如何从简单的文本生成任务，逐步扩展到图像、音乐、视频、人类动作和3D对象等多种模态的生成。这些模型通过结合Transformer架构和扩散模型等核心技术，实现了跨模态的转移和模块化专业化，极大地丰富了AI的应用场景。

文本到图像（T2I）：DALL·E系列、Imagen和Stable Diffusion等模型通过大规模图像-文本对数据集训练，利用SSL技术从无标签图像数据中学习，提高了图像生成的质量和多样性。
文本到音乐（T2M）：Moûsai、MusicLM和Noise2Music等模型利用扩散模型和自监督学习，从大规模音乐数据中学习音乐结构和模式，生成高质量的音乐。
文本到视频（T2V）：CogVideo、Make-A-Video和Phenaki等模型通过结合Transformer架构和扩散模型，实现了高质量视频生成，同时解决了数据集限制和计算成本问题。
文本到人类动作（T2HM）：TEMOS、T2M-GPT和MotionDiffuse等模型通过概率生成方法和扩散模型，生成与文本描述相匹配的人类动作序列。
文本到3D对象（T2-3D）：DreamFusion、Magic3D和Shap-E等模型通过优化神经辐射场（NeRF）和扩散模型，从文本描述生成高质量的3D对象。

自监督学习（SSL）、专家混合（MoE）、人类反馈强化学习（RLHF）和链式思考（CoT）提示是推动MLLMs发展的四大关键技术。这些技术不仅增强了模型的推理能力，还使其能够更好地理解和生成多模态内容。例如，SSL通过大规模无标签数据训练模型，MoE通过激活专家子网络增加模型容量，RLHF通过人类反馈微调模型，而CoT提示则通过引导模型生成中间步骤来增强推理能力。

第二篇论文则聚焦于MLLMs的融合策略和技术。提出了一个以大型语言模型（LLM）为中心的分析框架，从架构策略、表示学习技术和训练范式三个关键维度对MLLMs进行分类。

在架构策略方面，详细分析了抽象层、投影层、语义嵌入层和交叉注意力层等机制，这些机制使得非文本模态能够与LLMs有效集成。例如，抽象层通过控制特征的token数量，减少了模型的计算成本；而交叉注意力层则允许模型动态关注非文本特征，实现更精细的模态融合。

在表示学习技术上，将MLLMs分为联合表示、协调表示和混合表示三种方式。联合表示通过将所有模态的特征合并到一个共享空间中，实现细粒度的融合；协调表示则通过对比学习对齐不同模态的输出，适合快速检索和零样本转移；混合表示则结合了两者的优点，既保持了检索效率，又实现了详细的多模态融合。

通过对125个MLLMs的分析，得出以下关键结论：

架构策略：不同的MLLMs采用了多种机制来将非文本模态与LLMs集成，这些机制可以根据研究者的意图在不同的上下文中发挥不同的功能。
表示学习技术：MLLMs在表示学习上主要采用联合表示、协调表示和混合表示三种方式，每种方式都有其优势和局限性。
训练范式：MLLMs的训练过程可以分为单阶段、两阶段或多阶段，不同的训练阶段和目标函数对模型性能有显著影响。

https://arxiv.org/abs/2506.10016A Survey of Generative Categories and Techniques in Multimodal Large Language Modelshttps://arxiv.org/pdf/2506.04788Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques

（文：PaperAgent）

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

发表评论 取消回复

发表评论取消回复