扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。