大模型训练的不稳定性有望彻底解决，MIT新研究用谱正则化替代层归一化

LLM 训练终于不用打补丁了！

MIT团队创造了一个性能优异的Lipschitz Transformer，通过对权重进行谱正则化——完全不需要激活稳定技巧：没有层归一化、没有QK归一化、没有logit softcapping。

他们认为这可能解决了训练不稳定的「根本原因」。

谱正则化：从梯度到权重

Muon原本只对梯度进行谱正则化，但如果我们也对权重进行谱正则化呢？

结果是：激活值保持极小——几乎在fp8范围内。

在他们的GPT-2规模Transformer中，激活项不超过约100，而基线模型高达约1000。

论文地址：https://arxiv.org/abs/2507.13338

受Kimi AI启发的高效原语

团队最兴奋的事情之一是受Muon启发并与Kimi AI最近工作相关的高效原语。

他们引入了一系列方法，通过应用min(1, x)来限制奇异值，这是为Muon的高稳定秩更新而协同设计的。

这种设计让奇异值裁剪变得既高效又优雅。

Lipschitz界限的追求

他们的主要目标是在NanoGPT上强制执行可证明的Lipschitz界限，同时匹配无约束的验证损失。

Lipschitz界限控制着网络对输入或权重变化的敏感度。较低的界限意味着：小的输入变化不会导致输出的剧烈变化。

更低的Lipschitz界限 => 更鲁棒、更可预测的模型

但还需要更多工作，目前的方法将Lipschitz常数限制在10^264。

权衡的艺术

为了控制Lipschitz界限，需要控制权重范数。有很多方法可以做到这一点，包括权重衰减。

团队比较了各种方法的「Lipschitzness to performance」权衡。

发现：Muon + 奇异值裁剪推动了权衡边界。

社区的智慧碰撞

团队看到了最近涌现的相关工作，包括@Jianlin_S的QK-clip算法和@_arohan_的权重约束线程。

Laker Newhouse（@LakerNewhouse）特别引用了rohan anil（@arohan）的思考：

做一些数学来净化时间线

为什么损失会爆炸？一个值得深思的问题。

所以尝试一下：为什么不裁剪更新的奇异值呢？

σ > 1，裁剪到1 σ <=1，返回σ

朴素实现：

Update = U S V.T Update_clipped = U clip(S, 1) V.T

如何让它更快？有迭代算法吗？欢迎社区贡献

一个可能的实现：

在[0, σ_max]之间创建一个非常高阶的切比雪夫多项式

在[0, 1]之间保持接近[1-eps, 1+eps]

在[1, σ_max]之间让它快速衰减

让我们称之为Sion，赶上潮流。

现在让我们看看能否做得更好

给数值线性代数专家的开放问题

有更快的算法将最大值裁剪到1.0吗？朴素实现是幂迭代和缩减

给我的优化专家们

我们应该相对于权重矩阵每个分量的变化量进行裁剪吗，更像Wion。

（如果有人之前写过相同的算法，请告诉我参考文献，如果这启发了你做出什么，请引用这条推文）

看到论文后，rohan anil回应说：

我最初还以为你真的引用了那个线程😅

这项工作做得很好！

他还询问：「你认为这条研究路线的下一步是什么？」

cider（@jeffreycider）评论：「很棒的工作！我喜欢『spectral hammer』这个名字」

Emilio（@Em_alej）则在思考更广泛的应用：「太棒了！我想知道这是否可以应用于GANs——将生成器和判别器都使用transformer，有点像ViTGAN。」

完全开源

这项工作是与优秀的朋友和合作者共同完成的：@phess002 @leloykun @anzahorodnii @jxbz @phillip_isola

团队对社区能将这项工作推向何方感到非常兴奋。

他们发布了所有代码和数据，还有很多需要测试和理解的内容，这些可以帮助实现对抗鲁棒性、有界激活和大规模稳定训练。

MIT 的研究又一次呼应了奥卡姆剃刀的思想：

最优雅的解决方案，往往是最简单的。

层归一化、批归一化、各种稳定技巧……这些年来，我们给Transformer加了太多「创可贴」。

而谱正则化的思路是：与其不断修补症状，不如直接治疗病因。

通过控制权重的奇异值，激活值自然就变小了；通过限制Lipschitz界限，模型自然就稳定了。

当我们不再需要各种「稳定技巧」，当模型本身就是稳定的，那才是真正的进步。

虽然10^264的界限看起来还很大，但这已经是一个重要开始。

从Muon到Kimi AI，从MIT到全球的研究者，大家都在思考着相同的问题：如何让AI训练变得更简单、更稳定？

这次，AI 终于有望扔掉所有拐杖，真正学会走路。

[1]

论文: https://arxiv.org/abs/2507.13338

[2]

代码: https://github.com/Arongil/lipschitz-transformers

[3]

数据: https://huggingface.co/phess2/lipschitz-transformers

（文：AGI Hunt）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31