扩散语言模型归档 - 每时AI

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

2025年7月28日8时作者机器之心

刘子儒等人提出GHPO算法框架，在复杂推理模型训练中引入模仿学习，解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合，并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果，其性能优于现有方法。

四款扩散大语言模型全部破防？上交&上海AI Lab发现致命安全缺陷

2025年7月23日16时作者量子位

扩散语言模型（dLLMs）因并行解码、双向上下文建模和灵活插入masked token而备受关注。然而，上海交通大学等团队在最新研究中指出，dLLMs存在根本性架构安全缺陷，几乎毫无防御能力。DIJA攻击无需训练或改写模型参数，就能生成有害内容，并揭示了扩散语言模型的弱点，为dLLMs的安全研究拉开序幕。

苹果港大终结自回归时代？7B扩散模型发布，AI写代码逻辑彻底颠覆！

2025年7月5日8时作者新智元

fuCoder，用扩散模型+强化学习策略，直接性能飙升4.4%。自回归，真的要落幕了吗？
文本扩散

苹果与港大出手！改进GRPO，让dLLM也能高效强化学习

2025年6月27日23时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske

苹果出手！改进GRPO，让dLLM也能高效强化学习

2025年6月27日16时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske

突破扩散LLM瓶颈，英伟达港大提全新Fast-dLLM，推理加速27.6倍！

2025年6月17日16时作者新智元

方式，借助KV Cache和并行解码，将Diffusion LLM推理加速达27.6倍。
如果你看过

扩散语言模型真的会比自回归好？理论分析结果可能恰恰相反

2025年6月10日23时作者机器之心

扩散语言模型在某些关键场景下可能不如自回归模型高效。基于理论分析和实验结果，研究提出应根据任务需求选择合适的目标衡量指标（如流畅度或序列级别准确性和逻辑正确性），从而为实践中如何使用扩散语言模型提供指导。

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

2025年6月8日8时作者机器之心

本文介绍的工作基于先前发布的8B扩散语言模型LLaDA，提出了方差缩减的偏好优化方法VRPO，并利用VRPO对LLaDA进行了强化对齐，推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升，具有竞争力优势。