人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队合作研究Diffusion Transformers的超参优化,提出μP理论并将其应用于实际模型训练。通过大规模实验验证了该方法的有效性,并开放论文代码供进一步研究。
中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队合作研究Diffusion Transformers的超参优化,提出μP理论并将其应用于实际模型训练。通过大规模实验验证了该方法的有效性,并开放论文代码供进一步研究。