MiniMax押注线性注意力让长文本训练速度基本不变

在Transformer几乎一统天下的今天，MiniMax-01选择了另一条路：放弃“主流”Transformer，押注更小众但计算更高效的线性注意力（linear attention），并将其规模推进到惊人的4560亿参数，搅动开源圈。

线性注意力是什么？一句话解释，它是一种能将原本计算量为 O(n²) 的attention结构压缩为 O(n) 的优化方法。

但它很早期时效果并不好，也少有人关注。直到MiniMax团队将其持续打磨，并在2023年内推出了多个关键技术，包括：

用cos函数替代softmax的Cosformer；
分析性能瓶颈的The Devil in Linear Transformer；
更快的Lightning Attention，通过分块算法提升速度、降低延迟；
与Transformer结合的Hybrid架构，既保证性能也保留一定retrieval能力（即上下文记忆）；

这些研究逐步把线性注意力从“理论好看、实际不行”的尴尬地带，推到了足以工业部署的成熟阶段。

架构负责人钟怡然说，当大家还在担心线性注意力放大之后会不会失效时，MiniMax已经用400多B规模的模型验证了它“能跑、能快、能长记性”。

他提到，这种架构的本质优势是随着序列变长，成本优势会越来越大：在1M长度输入下，softmax attention的延迟是lightning attention的2700倍。而这也让lightning架构在长文本生成、长链推理等方向上具备独特优势。

不过，线性注意力也不是完美。retrieval能力弱是当前难解的瓶颈，这也是目前行业仍偏好hybrid架构的主要原因。未来可能会通过更极致地稀疏化softmax attention，进一步降低成本但保留核心能力。

钟怡然还透露，下一步他们可能探索的方向是统一理解与生成的大模型架构，即多模态原生模型。他也认为，面向AGI终局，O(n)复杂度的架构才更符合人类智能的认知模式。

参考文献：
[1] 开源地址：https://github.com/MiniMax-AI/MiniMax-01
[2] 模型下载：https://huggingface.co/MiniMaxAI/MiniMax-Text-01
[3] MiniMax押注线性注意力，让百万级长文本只用1/2700算力｜对话MiniMax-01架构负责人钟怡然：https://mp.weixin.qq.com/s/NigAnui9fXbfresW8KIX-Q
[4] https://www.minimax.io/

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复