MagiAttention:为超长文本和异构数据训练提供线性可扩展的分布式注意力机制 2025年4月24日8时 作者 NLP工程化 MagiAttention 提供线性可扩展的分布式注意力机制,支持多种注意力掩码类型,性能与Flash-Attention 3相当,实现零冗余通信提升效率。