利用attention应出度进行token-pruning的相关工作

Attention的应出度（out-degree）指在attention map里，描述某个query token把多少的注意力分给别人。

某个 token 作为 query 时，它的行分布表明它需要从哪些上下文 token 获取语义补充。

如果行分布很平均 → 说明该 token 对整体上下文都有依赖。

如果行分布很尖锐 → 说明该 token 只依赖少量关键 token（例如动词只依赖其主语/宾语）。

S. Sukhbaatar, Adaptive Attention Span in Transformers

该工作来自2019年的facebook AI research，目的是token length较长时，让模型自主学习每个token主要关注的上下文长度，即attention span。

2025-09-07T143318

该work给attention map加入了一个mask函数来控制attention span。其中z为一个可学习的attention span长度，因为该方法叫做adaptive attention span。而R为超参数，用于控制这个adaptive attention span的”softness”。而最终的loss function也改写为：
2025-09-07T143726
$\lambda$为一个超参数，M为每层包含的head数目。这个loss表明，模型对过大的attention span将会施加一定的惩罚。

使用24层，参数量为209M的transformer模型来对text8数据集做language modeling任务。adaptive span可以将原本包含8192个token的attention map平均的attention span控制在245。

Rao, Yongming, et al. “DynamicViT: Efficient vision transformers with dynamic token sparsification.” NIPS 2021

该文章将把不重要的token从inference过程中移除的方法成为token sparsification。在ViT模型中可以去除66%不重要的token，减少31%~37%的FLOPs，提高40%的throughput，acc.降低仅为0.5%。

作者给ViT加入了一个轻量化的预测模型来决定哪个token将被prune掉。网络结构如下：
2025-09-07T152513

这个预测模型在放在每一层计算后。其由全连接与average pooling组成。