利用attention应出度进行token-pruning的相关工作

Attention的应出度(out-degree)指在attention map里,描述某个query token把多少的注意力分给别人。

某个 token 作为 query 时,它的行分布表明它需要从哪些上下文 token 获取语义补充。

如果行分布很平均 → 说明该 token 对整体上下文都有依赖。

如果行分布很尖锐 → 说明该 token 只依赖少量关键 token(例如动词只依赖其主语/宾语)。

S. Sukhbaatar, Adaptive Attention Span in Transformers

该工作来自2019年的facebook AI research,目的是token length较长时,让模型自主学习每个token主要关注的上下文长度,即attention span。

2025-09-07T143318

该work给attention map加入了一个mask函数来控制attention span。其中z为一个可学习的attention span长度,因为该方法叫做adaptive attention span。而R为超参数,用于控制这个adaptive attention span的”softness”。而最终的loss function也改写为:
2025-09-07T143726
$\lambda$为一个超参数,M为每层包含的head数目。这个loss表明,模型对过大的attention span将会施加一定的惩罚。

使用24层,参数量为209M的transformer模型来对text8数据集做language modeling任务。adaptive span可以将原本包含8192个token的attention map平均的attention span控制在245。

Rao, Yongming, et al. “DynamicViT: Efficient vision transformers with dynamic token sparsification.” NIPS 2021

该文章将把不重要的token从inference过程中移除的方法成为token sparsification。在ViT模型中可以去除66%不重要的token,减少31%~37%的FLOPs,提高40%的throughput,acc.降低仅为0.5%。

作者给ViT加入了一个轻量化的预测模型来决定哪个token将被prune掉。网络结构如下:
2025-09-07T152513

这个预测模型在放在每一层计算后。其由全连接与average pooling组成。