稀疏注意力机制示意图

传统注意力

T1
T2
T3
O(n²) 复杂度

稀疏注意力

T1
T2
T3
O(n log n) 复杂度

稀疏注意力通过只关注部分token对,大幅减少计算量,使模型能处理更长序列。