Keller Jordan的一篇博文,介绍了自己写的一种名为Muon的优化器 2025-06-17 作者 NLP工程化 Keller Jordan介绍其优化器Muon,用于神经网络隐藏层参数优化,在NanoGPT和CIFAR-10应用中显著提高训练速度,并与原文献链接。