MagiAttention:为超长文本和异构数据训练提供线性可扩展的分布式注意力机制 上午8时 2025/04/24 作者 NLP工程化 MagiAttention 提供线性可扩展的分布式注意力机制,支持多种注意力掩码类型,性能与Flash-Attention 3相当,实现零冗余通信提升效率。