人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队合作研究Diffusion Transformers的超参优化,提出μP理论并将其应用于实际模型训练。通过大规模实验验证了该方法的有效性,并开放论文代码供进一步研究。

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。