四款扩散大语言模型全部破防？上交&上海AI Lab发现致命安全缺陷

DIJA团队投稿
量子位 | 公众号 QbitAI

扩散语言模型（Diffusion-based LLMs，简称 dLLMs）以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性，成为一个重要的发展方向。

相较传统的自回归语言模型，dLLMs 既可以一次性生成多个位置的词，也能更自然地完成文本插入、改写、补全等任务，被广泛应用于交互式问答、代码生成、甚至多模态场景。

但在这股看似技术跃迁的浪潮背后，一场潜藏的安全危机正在酝酿：能否继续沿用自回归模型的对齐与防护机制，保障dLLM的输出安全？

答案是：不能。

在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中，来自上海交通大学, 上海人工智能实验室和中山大学的研究团队指出：

当前扩散语言模型存在根本性架构安全缺陷，在某些攻击场景下，几乎毫无防御能力。

他们提出的DIJA攻击框架，不需要训练，也不需要改写模型参数，就能令多个dLLMs大概率生成有害、非法、违规内容。这项研究不仅击穿了扩散语言模型的“对齐护盾”，也正式拉开了dLLMs 安全研究时代的序幕。

为什么dLLMs更容易被攻破？

从自回归LLM到扩散LLM

自回归LLM：一次生成一个token，顺序解码，现有的对齐策略按照自回归LLM生成方式构建，实行安全对齐后自回归LLM能够对危险内容拒绝采样。
扩散LLM：同时生成多个掩码位置token，基于双向上下文建模，追求上下文逻辑一致性，并行速度快，可以在文本任意位置插入掩码进行生成。

扩散语言模型的”双刃剑”：双向建模和并行解码

生成是并行进行的，没有上下文顺序性，无法逐token拒绝采样
输入支持任意位置插入掩码，模型被设计为无条件预测上下文掩码
现有的安全对齐训练目标大多针对”整体输入-整体输出”，面对局部掩码提示时束手无策

揭开 dLLMs 无感防线的“真空地带”

攻击理念：从生成机制出发，让模型“自己说出危险内容”

DIJA（Diffusion LLMs Jailbreak Attack）不会对越狱提示中的危险内容进行任何掩盖或者改写，完整的暴露给dLLMs，只需要将原始的越狱提示改造为掩码文本交错的越狱提示（如上文图一所示)，dLLMs即使意识到这是危险的指示，依然”不由自主”的输出非法内容。

自动攻击构建：一句 prompt 都不用手写，攻击全自动生成

相比一些传统的越狱攻击需要精心设计提示词，团队提出了一套全自动的攻击构建管线，借助强大的语言模型（如Qwen2.5或GPT-4o）实现“只需示范几例、无需手动改写”的零人工攻击生成。

团队设计了三大关键策略，使得构造出的掩码文本交错的攻击提示既自然流畅，又具强攻击性：

多样化提示词生成（Prompt Diversification）：
精心挑选多种类型的jailbreak示例（如对话、清单、Markdown 格式等），涵盖多个危险行为类别，并注入风格扰动（如语气、啰嗦程度等），以增强通用性与抗检测性。
多粒度掩码策略（Masking Pattern Selection）：
不仅构造多样化的提示词内容，还在结构层面引入多粒度的掩码操作（例如整段掩码、关键动词掩码、逐步掩码等），诱导模型生成更具威胁性的补全，同时实现对攻击行为的精细控制。
上下文对齐插入（Benign Separator Insertion）：
为了保持流畅性与隐蔽性，在掩码位置插入短小、无害的上下文句子（如说明性、叙述性短语），让攻击提示词在形式上看似正常，整体更加流畅，精准诱导模型生成高危内容。

通过上述设计，最终生成的攻击提示词具备以下三大优势：

结构自然：读起来毫无违和感 – 上下文扎实：精心控制模型走向 – 攻击效果强：自动生成即能突破对齐防线！

DIJA无需任何人工重写，无需藏污纳垢式 prompt变形改写，真正实现了高效、稳健、可控的规模化攻击生成。

实验结果：多种dLLMs模型在DIJA攻击下“全面溃败”

研究团队在4款代表性dLLM上全面测试DIJA攻击效果，使用多种评估指标：

ASR-k：基于关键词匹配的攻击成功率
ASR-e &StrongREJECTscore：基于评估模型的攻击成功率或攻击成功分数
Harmfulnessscore：GPT-4o对模型回答的危险性评分

扩散语言模型的对齐效果与内在防御力

研究团队首先探究了现有的扩散语言模型的安全对齐效果，如图3，利用两种越狱攻击方法在三个benchmark上对4种扩散LLMs和自回归LLMs的评估结果显示，扩散语言模型的防御力整体上与自回归语言模型相当甚至略微优于自回归语言模型，在dLLMs中Dream-Instruct的安全性最好， MMaDA-MixCoT的安全性最差。

关键结果亮点

如表1，表2，表3所示：

DIJA在所有benchmarks上的ASR-k均取得了最高，这表明在DIJA攻击下dLLMs几乎不会拒绝回答任何危险性话题
对于安全性最好的Dream-Instruct, DIJA 在 JailbreakBench的ASR-e上比最好的baseline ReNeLLM提升高达78.5%，在StrongREJECT score上提升37.7

如图5所示，DIJA 在面对两种防御方法（Self-reminder 和 RPO）时依然保持攻击效果，展现出极强的鲁棒性。

dLLMs的安全短板不是bug，而是设计特性

DIJA攻击之所以成功，不是模型“没学好”，而是dLLM的基本设计可能本就无法阻止此类攻击。

模型失效的根本原因：

上下文双向建模 → 掩码可被“诱导性填充”：模型会根据前后文自动完成掩码位，不区分是否含有危险语义。

并行解码机制 → 无法逐位审查或中止生成：一次性输出全部或者多个token，无中途拒绝机制。

当前缺乏局部安全对齐：当前alignment方法只在“完整任务”层面对模型进行调优，对单个token位置无感知。

结果就是，**攻击者“只需掩码，模型自动越界”。

dLLM安全时代刚刚开始，DIJA只是序章

这篇论文不仅提出了DIJA攻击框架，更代表着一个新的研究方向开启：“掩码安全性”（Mask-Aware Safety）将成为未来扩散语言模型安全的新核心。
研究者呼吁：

设计基于掩码位置的拒绝机制，例如局部风险评分 + 掩码内容审查器；
构建专为dLLM架构设计的对齐训练流程；
重新审视“生成控制”的语义单元，从输出句子到token层面微调对抗。

作者简介

本文由上海交通大学，上海人工智能实验室和中山大学联合完成。主要作者包括上海交通大学博士生温子辰，上海人工智能实验室实习生屈嘉树，青年研究员刘东瑞（Project lead）等。通讯作者为上海交通大学人工智能学院助理教授张林峰和上海人工智能实验室青年科学家何聪辉。

论文地址： https://arxiv.org/abs/2507.11097
代码：https://github.com/ZichenWen1/DIJA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

DIJA团队 投稿量子位 | 公众号 QbitAI