Meta和NYU联合出品MetaQuery：融合 MLLM 深度理解与 Diffusion，开启图像生成的新跃迁

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

极市导读

仅需图文配对数据和标准扩散目标即可训练，既保持了 MLLM 的理解实力，又在图像生成任务上达到了强劲表现，包括图像编辑和主体驱动生成等应用 >>加入极市CV技术交流群，走在计算机视觉的最前沿

太长不看版

Meta 和 NYU 联合出品的理解生成统一模型。

本文是 Meta 和 NYU 联合出品的理解生成统一模型 (Unified multimodal model)。Unified multimodal model 可以依赖一个架构做理解任务 (输出文本)，和生成任务 (输出像素)。

但是，在单个架构中对齐这些不同的模态通常需要复杂的 training recipe 和精细的数据平衡。

本文给出的方案是 MetaQuery，是一组可学习的 queries。这组可学习的 queries 充当自回归多模态模型和扩散模型之间的桥梁。MetaQuery 可以看成是巧妙地连接了 MLLM 和 Diffusion 模型，利用 MLLM 的图像深度理解能力和推理能力实现知识增强的图像生成。

MetaQuery 的训练很简单，只需成对的 image-caption 数据和标准的 diffusion 训练目标。值得注意的是，即使 MLLM Backbone 冻结，这种迁移也是有效的，MetaQuery 可以在实现强大的生成性能的同时保留其最先进的多模态理解能力。

本文的主要结果和发现

MetaQuery 冻结一个 MLLM Backbone，既可以维持 SOTA 的图像理解能力，同时可以实现 SOTA-level 的多模态生成能力。
MetaQuery 可以将 MLLM 的能力迁移，以帮助生成任务的推理和知识增强。
MetaQuery 可以从冻结的 MLLM 中提取非常详细的视觉 condition，实现图像重建和编辑。
即便是有冻结 MLLM，MetaQuery 也可以简单地 instruction-tuned，从而实现一些高级的多模态生成，比如 subject-driven generation。

本文目录

1 MetaQuery：利用 MLLM 的图像深度理解能力利好 Diffusion 图像生成
(来自 Meta，NYU，Saining Xie 团队)
1 MetaQuery 论文解读
1.1 MetaQuery 研究背景
1.2 MetaQuery 架构
1.3 MetaQuery 设计选择
1.4 MetaQuery 训练策略
1.5 MetaQuery 训练过程
1.6 实验结果

1 MetaQuery：利用 MLLM 的图像深度理解能力利好 Diffusion 图像生成

论文名称：Transfer between Modalities with MetaQueries

论文地址：

https://arxiv.org/pdf/2504.06256

项目主页：

https://xichenpan.com/metaquery/

1.1 MetaQuery 研究背景

Unified Model，生成理解统一模型，是指可以同时做到 deep understanding (输出文本)，以及 rich generation (输出像素) 的模型，有很大前景。这样的系统可以解锁理解和生成之间的协同能力。

但是，高效连接不同的输出模态相当困难，比如一个问题是我们该如何高效地将世界知识从自回归多模态 LLM 转移到图像生成器。大多数已发表的方法依靠仔细调整基础多模态 LLM (MLLM) 来处理理解和生成任务。这个过程涉及复杂的架构设计、data / loss 平衡、多个训练阶段和其他复杂的 training recipe。没有这些，优化一个能力可能会破坏另一个能力。

本文聚焦于不同输出的模型之间能力的迁移，即：将某一输出模态的预训练模型 (比如 MLLM) 的能力高效迁移到**另一输出模态的模型 (比如 Diffusion Model)**。具体而言，本文冻结 MLLM，以使得其可以专注于理解，然后把图像生成交给 Diffusion Model。本文证明，即使冻结参数，只要有正确的桥接范式，MLLM 的固有世界知识、强推理和上下文学习能力是可以 transfer 到图像生成中的。

但是，利用 MLLM 做多模态理解和生成并不直接。之前的一些工作已经试过了使用冻结的 LLM 作为 T2I 模型的文本编码器，但是也与 Unified Model 的很多需要的任务不兼容，比如 in-context learning 以及多模态交织输出。

MetaQuery 的做法是：设置一些可学习的 queries，直接输入冻结的 MLLM，提取 condition 进行多模态生成。 实验表明，即使没有微调或双向注意，冻结的 LLM 也可以为多模态生成生成高质量的 condition。使用 MetaQueries 训练 Unified Model 只需要少量的配对 image caption 数据将这些 prompt 条件连接到任何扩散模型。由于整个 MLLM 对于理解保持不变，因此 MetaQueries 的训练就相当于是训练 Diffusion Model，训练目标仍然是原始的 denoising objective，就像微调扩散模型一样高效稳定。

MetaQuery 将 MLLM 的自回归先验与强大的 Diffusion Model 相结合，直接利用冻结的 MLLM 在建模压缩语义表示方面的强大能力，从而避免了直接生成像素的更具挑战性的任务。

1.2 MetaQuery 架构

MetaQuery 将冻结的 MLLM 与 Diffusion Model 连接起来。使用随机初始化的可学习查询来 query 出用来进行生成任务的 condition 。其中，是 query 的数量，是 query 的维度，与 MLLM 隐藏维度相同。

为简单起见，MetaQuery 依然对整个序列使用 causal mask，而不是专门为启用 full attention。然后将 condition 输入可训练的 Connector，与 Diffusion Model 的输入空间对齐。Diffusion Model 只要它有 Condition 的输入接口就可以。只需将其原始条件替换为 condition 。

整个模型在配对数据上使用原始生成目标进行训练。MLLM Backbone 使用 LLaVA-OneVision-0.5B，扩散模型使用 Sana-0.6B 512 resolution。learnable queries 使用 tokens。Connector 使用 24 层的 transformer encoder。

图1：MetaQueries 模型概述。蓝色标记保证 SOTA 的多模态理解能力。 MetaQueries 是可学习的 queries，直接应用于冻结的 MLLM，通过 query 得到用于后续生成任务的 condition。生成扩散模型可以是冻结的，也可以是为高级生成任务进一步微调过的

1.3 MetaQuery设计选择

learnable queries

许多模型，如 Lumina-Next、Sana 和 KosmosG 使用 (M)LLM 的输入 token 的最后一层 embedding 作为图像生成的 condition。然而，这种方法对于 Unified Model 来讲并不理想，这种方法与 Unified Model 的许多期待任务不兼容，比如 in-context learning 或者生成多模态交错的输出。

如图 2 所示，仅使用个 token 的 learnable queries 实现了与使用输入 token 的最后一层 embedding 相当的图像生成质量。此外，由于最后一层 embedding 序列长度更长，因此作者还测试了使用个 token 的 learnable queries，进一步提高了性能，甚至优于最后一层 embedding 的方法。

Frozen MLLM

MetaQuery 维持了原来的 MLLM 架构和参数不变，来维持其 SOTA 的多模态理解的能力。

对于多模态生成，一个关键问题是：MetaQuery 在冻结 MLLM 参数的情况下，其性能是否会比完全微调 MLLM 的方法差。实验结果如图 3 所示，冻结 MLLM 实现了与完整 MLLM 微调相当的性能，视觉质量略有提高。

微调 DiT 可以进一步提高两种设置的性能。

1.4 MetaQuery 训练策略

作者进一步研究了 MetaQuery 的两个主要组件的关键训练选项：learnable queries (token 的数量) 和 connectors。

token 数量

learnable queries 一般负责提取 condition。关于这个 queries 的 token 数的选择，一般要么是去 match image decoder 的需求（比如 Stable Diffusion v1．5 的），要么是使用固定的数量（比如）。考虑到最近的 Diffusion Model 比如 Lumina－Next 和 Sana 都支持可变长度的 condition，因此确定可学习 queries 的最佳 token 数量至关重要。

在图 4 中，作者对 queries token 数量进行了仔细研究。观察到对于 T2I 而言，视觉质量在 64 个 token 之后开始收敛，而更多的 token 始终可以实现更好的提示对齐。对于长字幕来说更为明显，因为随着 token 数量的增加，GenEval with rewritten prompts 会更快地增加。

图4：token 数量研究。随着 token 数量的增加，文生图的提示对齐和图像重建结果不断提高

对于图像重建，作者观察到更多的 token 不断提高重建图像的质量 (视觉样本如图 5 所示)。

在后面的实验中，作者将所有模型的令牌数设置为，因为它在性能和效率之间取得了很好的平衡。

Connector 设计

Connector 是 MetaQuery 的另一个重要组件。作者使用与 Qwen2.5 LLM 相同的架构，但可以对 Connector 进行 bi-directional attention。

作者研究了两种不同的设计：Projection Before Encoder (Proj-Enc) 和 Projection After Encoder (Enc-Proj)。Proj-Enc 首先将 Condition 投影到 Diffusion Model 的输入维度上，然后使用 transformer encoder 来对齐 Condition。

Enc-Proj 首先使用 transformer encoder 来对齐到与 MLLM hidden state 相同的维度上，然后将这个 Condition 投影到 Diffusion Model 的输入维度上。如图 6 所示，Enc-Proj 设计在参数较少的情况下实现了比 Proj-Enc 设计更好的性能。

1.5 MetaQuery 训练过程

MetaQuery 的训练分两个阶段：预训练阶段和指令微调阶段。

两个训练阶段都保持 MLLM 冻结，只去微调 learnable queries，connectors，和 diffusion models。对不同大小的 MetaQuery 使用 3 种不同的 MLLM Backbone：Base 使用 LLAVAOneVision 0.5B、Large 使用 Qwen2.5-VL 3B，X-Large 使用 Qwen2.5-VL 7B。将所有模型的 token 数量设置为，Connector 架构为 24 层的 Enc-Proj 架构。对于图像生成头，本文测试了两种不同的扩散模型：Stable Diffusion v1.5 和 Sana-1.6B。

预训练阶段

作者在 25M 公开可用的 image-caption 对上预训练 8 Epoch，学习率为 1e-4，全局 batch size 为 4096。学习率遵循余弦衰减，4,000-step warmup，然后逐渐降低到 1e-5。

指令微调阶段

作者在本文中重新思考了图像生成中指令调优的数据管理过程。当前的方法都依赖于一个专家模型，来根据源图像和指令来生成目标图像。本文使用 web corpora 中的自然发生的图像对构建指令微调数据。这些语料库包含丰富的多模态上下文，具有交错的文本和相关主题或主题的图像。这些图像对通常表现出有意义的关联，无论是直接视觉上的相似性，亦或是更微妙的语义连接，如图 7 所示。这种自然得到的图像对为指令微调提供了多样化的监督信号。基于这一观察，作者开发了一个数据构建管道，它挖掘图像对并利用 MLLM 生成捕获其图像间关系的开放指令。

首先，作者从 mmc4 core fewer-faces subset 中收集分组图像，其中每个图像都带有 caption。使用 SigLIP 对具有相似标题的图像进行聚类。在每一组中，平均相似度最小的图像被指定为 target 图像，而其余的图像作为 source 图像。这个过程总共产生了 2.4M 图像对。最后，使用 Qwen2.5-VL 3B 为每对生成 instructions，描述如何将 source 图像转换为 target 图像。作者 2.4M 数据集上指令微调了 Base 大小的模型 3 个 Epoch，使用与预训练相同的学习率和 2048 的 Batch size。

图7：指令微调数据 curation pipeline。从 web corpora 中基于 SigLIP caption 相似度分数来分组图片，然后根据这些图片对来构造指令微调数据

1.6 实验结果

多模态理解和生成

如图 8 所示，MetaQuery 在理解和生成任务方面表现出强大的能力。因为 MetaQuery 允许我们使用 SOTA 的 MLLM，不同大小的 MetaQuery 模型在所有理解基准上都表现出具有竞争力的性能。

在图像生成方面，MetaQuery 在 MJHQ-30K 上实现了 SOTA 视觉质量。MetaQuery 因为使用冻结的 MLLM，因此可以自然地与任意数量的 Diffusion Models 连接。由于 Sana-1.6B 模型已经在美学数据上进行微调，因此作者采用 Stable Diffusion v1.5 进行 COCO FID 的评估。

结果表明，在将其适配到强大的 MLLM 之后，可以获得改进的视觉质量，比如可以获得 8.69 的 COCO FID。这也在所有基于 Stable Diffusion v1.5 的 Unified Model 中建立了一个新的 SOTA COCO FID 分数，包括 MetaMorph (11.8) 和 Emu (11.66)。

图8：多模态理解和生:的定量结果。作者报告的 COCO FID 是带有 Stable Diffusion v1.5 的结果，其他指标是带有 Sana 的结果。† 表示重写的提示。‡ 表示在相同设置下测试的结果

在 prompt alignment 方面，MetaQuery 在 GenEval 和 DPG-Bench 上也取得了具有竞争力的性能，击败了所有基于 Diffusion Model 的方法，包括 Transfusion 和 JanusFlow。作者注意到 MetaQuery 和 Janus-Pro 之间存在性能差距，后者自回归生成图像 token。作者认为这一差距可能是由于 Diffusion Model 和 Autoregressive Model 的不同破坏模式：扩散模型通常无法正确跟随 prompt，而 Autoregressive Model 可能会受到更多的视觉伪影的影响，而这些伪影很难由 GenEval 和 DPG-Bench 量化。作者测试了 Janus-Pro 的 MJHQ-30K FID 分数，发现，在视觉质量和伪影控制方面，MetaQuery 明显优于 Janus-Pro。此外，作者发现 MetaQuery 比 Janus-Pro 实现了更好的世界知识推理能力。MetaQuery 提供了一种简单的方法，可以在统一的建模框架利用上最先进的 MLLM。图 9 中提供了定性结果说明 MetaQuery 的文生图能力。

图像重建

作者证明了 MetaQuery 可以很容易地在冻结 MLLM 情况下进行微调，来做图像重建任务。如图 11 所示，作者将微调后的 MetaQuery-B 与来自各种 Unified Model 的现有 Diffusion Autoencoder 进行比较，这些模型从预测的视觉特征重建图像。微调后的 MetaQuery-B 可以实现有竞争力的性能，匹配现有的最佳开源模型 Emu2。与 GPT-4o 相比，MetaQuery 模型也实现了可比的质量。

图像编辑

如图 11 所示，MetaQuery 可以迁移其图像重建能力来做图像编辑。作者保持 MLLM Backbone 冻结，并在公开可用的图像编辑数据上仅微调预训练 Base 模型 1,000 步。定性结果表明，MetaQuery 在这些图像编辑场景中是有效的。

指令微调

在对 2.4M 数据集进行指令微调后，MetaQuery 可实现令人印象深刻的 Zero-shot Subject-driven 生成能力，即使有多个高度定制的主题 (图 12 的第1行) 也能产生连贯的结果。使用各种监督信号，指令微调的 MetaQuery-B 模型惊奇地实现了视觉关联和 logo 设计等新功能 (图 12 的第2行)。

推理和知识增强的生成

作者表明，learnable queries 可以高效利用冻结 LLM 的能力，使得模型能够更好地理解并遵循复杂的提示，包括那些需要现实世界知识和推理的提示。如图 13 所示，对于左侧的 Knowledge-Augmented Generation 任务，MetaQuery-L 可以利用冻结 MLLM 中的世界知识并通过输入问题进行推理以生成正确答案。对于来自 CommonsenseT2I 的 right commonsense knowledge cases，LLM 提供了更好的常识知识，并使 MetaQuery 能够生成与事实一致的图像。

为了定量评估 MetaQuery 的世界知识推理能力，作者采用了 WISE benchmark。如图 14 所示，MetaQuery 实现了 SOTA 性能，显著地优于所有其他 Unified Model。值得注意的是，在 MetaQuery 之前，现有的 Unified Model 很难有效地利用强大的 MLLM 进行推理和知识增强生成，与文生图模型相比，性能较差。MetaQuery 是第一个成功地将冻结 MLLM 的能力转移到图像生成的 Unified Model，并超过了 SOTA 文生图模型的性能。

图13：MetaQuery 利用冻结的 MLLM 进行推理和知识增强生成，克服了基础 Sana 模型中遇到的失败案例。* 表示输入 token 的 LLM 最后一层嵌入用于图像生成；该模型为 L 大小 (Qwen2.5-VL 3B)。这种方法在某些情况下可能比基础 Sana 模型更好，但无法激活 in-context learning 来执行知识增强的生成

图14：WISE 上的世界知识推理比较。WISE 中的测试用例与图 13 中的知识增强生成案例相似。 MetaQuery 实现了 SOTA 性能，并且明显优于所有其他 Unified Model

作者还在图 15 中定量评估 MetaQuery 在 CommonsenseT2I benchmark 上的常识推理能力。为简单起见，按照原始实现使用 CLIP 作为评估器。结果表明，MetaQuery 显着提高了基础 Sana 模型的性能，实现了 SOTA 性能。

讨论1：不同 LLM backbones 的对比

如图 16 所示，为了测试使用不同 LLM Backbone 对 MetaQuery 的影响，作者选择了一系列 Backbone：预训练的 LLM (Qwen2.5-3B)、指令微调 LLM (Qwen2.5-3B-Instruct) 和指令微调的 MLLM (Qwen2.5-VL-3B-Instruct)。实验结果表明，指令微调可以获得更好的 (多模态) 理解能力。而且，MLLM 只用于提供多模态生成的 Condition，这个改进还与图像生成性能正交。

图16：不同 LLM Backbone 的比较。图像生成能力与多模态理解能力正交

讨论2：MetaQuery 与使用最后一层 embedding 的比较

如图 2 所示，MetaQuery 的 learnable queries 方法实现了与使用 LLM 的输入 token 的最后一层 embedding 相当的图像生成质量和提示对齐。然而，最后一层 embedding 方法本质上将 LLM 视为 text encoder，固有地限制了其上下文学习能力。虽然这种方法在某些情况下确实改进了基本的 Sana 模型，如图 13 所示，但它很难做知识增强生成。这些情况要求 LLM 在生成图像之前首先处理和回答输入问题，要求 in-context learning 的能力。图 17 中定量地证实了这种性能差距，其中 MetaQuery 在 WiScore 和 CommonsenseT2I 基准测试中显着优于最后一层 embedding 方法。MetaQuery 与 LLM 原生集成，自然地利用其上下文学习能力，使模型能够通过问题进行推理并生成适当的图像。

（文：极市干货）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31