大模型训练的不稳定性有望彻底解决,MIT新研究用谱正则化替代层归一化 2025年7月20日12时 作者 AGI Hunt MIT团队提出Lipschitz Transformer,通过谱正则化实现无激活稳定训练,避免了层归一化等传统方法;论文发布在arxiv上,并提供代码和数据支持。