Sink问题归档 - 每时AI

尝试终结Attention Sink起因的讨论

2025年8月5日23时作者极市干货

文章提出Transformer中的Attention Sink现象源于模型需要Context Aware的Identity Layer，即注意力块需在某些情况下保持恒等变换。该假设通过首个token的value接近0、深层解码更明显、非归一化注意力和门控机制消除sink等多个实验证据支持，并解释了这一现象的原因。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28