MiniMax押注线性注意力让长文本训练速度基本不变

在Transformer几乎一统天下的今天,MiniMax-01选择了另一条路:放弃“主流”Transformer,押注更小众但计算更高效的线性注意力(linear attention),并将其规模推进到惊人的4560亿参数,搅动开源圈。

线性注意力是什么?一句话解释,它是一种能将原本计算量为 O(n²) 的attention结构压缩为 O(n) 的优化方法。

但它很早期时效果并不好,也少有人关注。直到MiniMax团队将其持续打磨,并在2023年内推出了多个关键技术,包括:

  • 用cos函数替代softmax的Cosformer;

  • 分析性能瓶颈的The Devil in Linear Transformer;

  • 更快的Lightning Attention,通过分块算法提升速度、降低延迟;

  • 与Transformer结合的Hybrid架构,既保证性能也保留一定retrieval能力(即上下文记忆);

这些研究逐步把线性注意力从“理论好看、实际不行”的尴尬地带,推到了足以工业部署的成熟阶段。

架构负责人钟怡然说,当大家还在担心线性注意力放大之后会不会失效时,MiniMax已经用400多B规模的模型验证了它“能跑、能快、能长记性”。

他提到,这种架构的本质优势是随着序列变长,成本优势会越来越大:在1M长度输入下,softmax attention的延迟是lightning attention的2700倍。而这也让lightning架构在长文本生成、长链推理等方向上具备独特优势。

不过,线性注意力也不是完美。retrieval能力弱是当前难解的瓶颈,这也是目前行业仍偏好hybrid架构的主要原因。未来可能会通过更极致地稀疏化softmax attention,进一步降低成本但保留核心能力。

钟怡然还透露,下一步他们可能探索的方向是统一理解与生成的大模型架构,即多模态原生模型。他也认为,面向AGI终局,O(n)复杂度的架构才更符合人类智能的认知模式。

参考文献:
[1] 开源地址:https://github.com/MiniMax-AI/MiniMax-01
[2] 模型下载:https://huggingface.co/MiniMaxAI/MiniMax-Text-01
[3] MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然:https://mp.weixin.qq.com/s/NigAnui9fXbfresW8KIX-Q
[4] https://www.minimax.io/



(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往