稀疏注意力机制示意图
传统注意力
T1
T2
T3
O(n²) 复杂度
稀疏注意力
T1
T2
T3
O(n log n) 复杂度
稀疏注意力通过只关注部分token对,大幅减少计算量,使模型能处理更长序列。