基于重组性高斯自注意力的视觉Transformer
赵 亮 1, 2
周继开
1
摘    要  在目前视觉Transformer 的局部自注意力中, 现有的策略无法建立所有窗口之间的信息流动, 导致上下文语境建模能力不足. 针对这个问题, 基于混合高斯权重重组(Gaussian weight recombination, GWR)的策略, 提出一种新的局部自注意力机制SGW-MSA (Shuffled and Gaussian window-multi-head self-attention), 它融合了3种不同的局部自注意力, 并通过GWR 策略对特征图进行重建, 在重建的特征图上提取图像特征, 建立了所有窗口的交互以捕获更加丰富的上下文信息. 基于SGW-MSA 设计了SGWin Transformer 整体架构. 实验结果表明, 该算法在mini-imagenet 图像分类数据集上的准确率比Swin Transformer 提升了5.1%, 在CIFAR10图像分类实验中的准确率比Swin Transformer 提升了5.2%, 在MS COCO 数据集上分别使用Mask R-CNN 和Cascade R-CNN 目标检测框架的mAP 比Swin Transformer 分别提升了5.5%和5.1%,相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.关键词  Transformer, 局部自注意力, 混合高斯权重重组, 图像分类, 目标检测
引用格式  赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988DOI    10.16383/j.aas.c220715
Vision Transformer Based on Reconfigurable Gaussian Self-attention
ZHAO Liang 1, 2    ZHOU Ji-Kai 1
Abstract    In the current vision Transformer 's local self-attention, the existing strategy cannot establish the inform-ation flow between all windows, resulting in the lack of context modeling ability. To solve this problem, this paper proposes a new local self-attention mechanism shuffled and Gaussian window-multi-head self-attention (SGW-MSA)based on the strategy of Gaussian weight recombination (GWR), which combines three different local self-attention forces, and reconstructs the feature map through GWR strategy, and extracts image features from the reconstruc-ted feature map. The interaction of all windows is established to capture richer context information. This paper designs the overall architecture of SGWin Transformer based on SGW-MSA. The experimental results show that the accuracy of this algorithm in the mini-imagenet image classification dataset is 5.1% higher than that in the Swin Transformer, the accuracy in the CIFAR10 image classification experiment is 5.2% higher than that in the Swin Transformer, and the mAP using the Mask R-CNN and Cascade R-CNN o
bject detection frameworks on the MS COCO dataset are 5.5% and 5.1% higher than that in the Swin Transformer, respectively. Compared with other models based on local self-attention, it has stronger competitiveness in the case of similar parameters.
Key words    Transformer, local self-attention, Gaussian weight recombination (GWR), image classification, objec-tion detection
resizedCitation    Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention. Acta Auto-matica Sinica , 2023, 49(9): 1976−1988
目前计算机视觉领域使用的方法有两大类, 分
别是卷积神经网络(Convolutional neural net-works, CNN)和Transformer. 其中CNN 是图像分类[1]、目标检测[2]和语义分割[3]等计算机视觉任务的主流方法, 自AlexNet [4]诞生并在ImageNet 图像分类挑战中获得冠军以后, 研究者们开始通过各种方法设计卷积神经网络, 使得网络变得更深、更密集、更复杂[5−8], 在随后的几年内出现了很多经典的卷积神经网络. VGGNet [5]探索了CNN 的深度及性能之间的关系, 通过使用很小的卷积叠加增加网络的深度达到提升网络精度的效果; DenseNet [6]通过从特征图的角度入手, 为每一个模块加入密集连接达到了更好的性能和更少的参数量; ResNet [7]通过引
收稿日期 2022-09-10    录用日期 2023-01-13
Manuscript received September 10, 2022; accepted January 13,2023
国家自然科学基金(51209167, 12002251), 陕西省自然科学基金(2019JM-474), 陕西省岩土与地下空间工程重点实验室开放基金(YT202004), 陕西省教育厅服务地方专项计划(22JC043)资助
Supported by National Natural Science Foundation of China (51209167, 12002251), Natural Science Foundation of Shaanxi Province (2019JM-474), Open Fund Project of Key Laboratory of Geotechnical and Underground Space Engineering in Shaanxi Province (YT202004), and Shaanxi Provincial Department of Education Service Local Special Plan Project (22JC043)本文责任编委 黄华
Recommended by Associate Editor HUANG Hua
1. 西安建筑科技大学信息与控制工程学院 西安 710055
2. 陕西省岩土与地下空间工程重点实验室 西安 710055
1. College of Information and Control Engineering, Xi 'an Uni-versity of Architecture and Technology, Xi 'an 710055
2. Sh-aanxi Provincial Key Laboratory of Geotechnical and Under-ground Space Engineering, Xi 'an 710055
第 49 卷  第 9 期自  动  化  学  报Vol. 49, No. 92023 年 9 月
ACTA AUTOMATICA SINICA
September, 2023
入残差结构解决了随着网络层数的加深出现梯度消失的问题; GoogLeNet[9]使用密集成分来近似最优的稀疏结构, 在提升性能的同时不增加计算量; Ef-ficientNet[10]提出了一种多维度混合的模型缩放方法, 可以同时兼顾模型的精度以及速度. 在CNN模型性能越来越强的同时, 另一类视觉Transformer 的方法横空出世. Transformer由于其自注意力模块具有捕捉长距离依赖[11]的能力广泛被应用于自然语言处理的任务中, 而后被用到了计算机视觉任务中并取得了比CNN方法更优的效果. 在文献[12−15]中将自注意力模块嵌入到CNN中并应用于图像分类、目标检测和语义分割等计算机视觉任务中. Vis-ion Transformer (ViT)[16]不使用卷积神经网络而是通过将图像序列化的方法首次将Transformer架构应用到图像领域中, 并且在ImageNet数据集上取得了比ResNet更好的效果, 而后在短时间内被引入改进[17−20]并应用于各种图像领域的各种下游任务[21−24]. 但是Transformer的复杂度成为了其性能最大的瓶颈, 为了减小因全局自注意力引起的二次复杂度, 现有的方法较多使用局部自注意力机制. 目前现有的局部自注意力机制主要有7类(如图1所示).
1) 目前几乎所有的基于局部自注意力的Trans-former模型都会使用常规窗口自注意力(Window-multi-hea
d self-attention, W-MSA), 通过W-MSA 与其他类型的局部自注意力交替使用来建立窗口之间的通信, 如图1(a)所示.
2) HaloNet[25]通过对窗口进行缩放的操作来收集窗口之外的信息并建立跨窗口的信息交互, 如图1(b)所示.
3) Swin Transformer通过在连续的局部注意力层之间移动窗口的分区建立跨窗口之间的信息通信缓解感受野受限的问题, 如图1(c)所示.
4) CrossFormer[26]提出了跨尺度嵌入层和长短注意力, 有效地建立了长远距离的跨窗口的连接.
5) Shuffle Transformer[27]在连续的局部自注意力层之间加入空间shuffle的操作, 以提供长距离窗口之间的连接并增强建模能力.
6) GG Transformer[28]受到了人类在自然场景中识别物体的Glance和Gaze行为的启发, 能够有效地对远程依赖性和局部上下文进行建模, 4) ~ 6)这3种局部注意力可统一归为图1(d)的形式.
7) Axial-DeepLab[29]将二维自注意力分解为横向和纵向两个一维的自注意力, 如图1(e)所示.
8) CSWin Transformer[30]提出了一种在“十”字等宽窗口内计算自注意力的方式(Cross-shaped window self-attention), 通过横条和纵条窗口自注意力并行实现, 如图1(f)所示.
9) Pale Transformer[31]提出了“十”字等间隔窗口自注意力(Pale-shaped-attention, PS-Attention),如图1(g)所示.
图1展示了现有的局部自注意力方法. 不同的颜表示不同的窗口, 在每个窗口内执行计算自注意力, 并通过引入各种策略来建立跨窗口之间的连接. 这些工作虽然取得了优异的性能, 甚至优于一些最新的CNN的方法, 但是每个自注意力层中的依赖性仍然具有局限性, 具体表现在当特征图很大时, 通过有间隔的采样点组成的窗口无法建立所有窗口之间的信息流动导致了模型捕获的上下文语义
(a) 常规窗口(a) Regular window (b) 改变尺寸大小的窗口
(b) Resized window
(c) 移动窗口
(c) Shifted window
(d) 等间隔窗口
(d) Shuffled window
(e) 轴向窗口(e) Axial window
(f) “十”字窗口
(f) Cross-shaped window
(g) “十”字等间隔窗口
(g) Pale-shaped window
图 1    现有局部自注意力方法
Fig. 1    Existing local self-attention methods
9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1977
信息的能力不足. 针对上述问题, 本文提出了一种高斯窗口自注意力机制(Gaussian window-multi-head self-attention, GW-MSA), 它包括纵向高斯窗口自注意力(Vertical Gaussian window-multi-head self-attention, VGW-MSA)和横向高斯窗口自注意力(Horizontal Gaussian window-MSA,HGW-MSA)两种类型的局部自注意力. GW-MSA 与图1(d)中的Shuffled W-MSA 联合组成了SGW-MSA, 有效地捕捉更丰富的上下文依赖, 如图2所示, 不同颜的点代表不同的窗口组成, 在GW-MSA 中, 通过混合高斯权重重组GWR 策略重构特征图,并在重构后的特征图上计算局部自注意力. 本文在Swin Transformer 结构的基础
上, 引入SGW-MSA 设计了SGWin Transformer 模型, 在公开数据集CI-FAR10、mini-imagenet 、KITTI 、PASCAL VOC 和MS COCO 上进行了实验, 实验结果表明SGWin Transformer 在图像分类和目标检测的任务上优于其他同等参数量的基于局部自注意力的Transfor-mer 网络.
(a) 等间隔窗口
(a) Shuffled window
(b) 高斯窗口(b) Gaussian window
Horizontal Gaussian window Vertical Gaussian
window
图 2  局部自注意力组合
Fig. 2    Local self-attention combination
1    模型框架
1.1    Swin Transformer 算法
Swin Transformer 提出了一种新的基于Trans-former 的视觉主干网络, 自注意力的计算在局部非重叠窗口内进行. 一方面可以将复杂度从之前的和图像大小成平方的关系变成线性关系, 并且采用非重叠局部窗口, 大大减小了计算量; 另一方面在不同的注意力层之间采用移动窗口的操作, 使得不同窗口之间的信息可以交换. 并且由于性能超越了参
h w W h W w 数量相似的CNN 主干, 推动了Transformer 成为了视觉主干网络的新主流, 在近两年出现了越来越多基于局部自注意力机制的视觉Transformer 方法, 然而目前的各种局部自注意力建立远距离跨窗口连接策略具有一定的局限性. 当特征图很大时,现有的窗口连接的策略无法建立所有窗口之间的信息流动导致无法捕捉足够的上下文信息. 假设特征图的高和宽分别为  和 , 局部窗口的高和宽分别为  和 , 对于特征图上划分的某一个局部窗口, 该窗口在纵向和横向可以建立最近窗口连接的距离分别为:
在纵向和横向可以建立最远窗口连接的距离分别为
:
d h min >
W h d w min >W w d h max <h −W h d w
max <w −W w h,w,W h ,W w d h max d w
max d h min (d w
min )
d h
(d w
)
所以具有4种不能建立窗口连接的情况: 1) ; 2) ; 3) ; 4) . 当
之间的关系满足式(5) ~ 式(7)中的一种情况时就会出现特征图过大导致无法建立所有窗口之间信息交互的情况. 当满足式(5)或式(6)时, 窗口之间的纵向距离或者横向距离分
别大于  和
时无法建立连接, 当满足式(7)
中的情况时, 窗口之间的纵(横)向距离小于 或者大于  都无法建立连接.1.2    SGWin Transformer 的整体结构
为了解决当特征图过大时现有的局部自注意力
机制无法建立所有窗口之间的信息交互的问题, 本文提出了一种新的局部自注意力机制SGW-MSA,并在Swin Transformer 的基础上将所有的移动窗口自注意力SW-MSA 替换为SGW-MSA 得到一种新的SGWin Transformer 模型, 模型的整体架构如图3(a) 所示. 主干网络符合标准的视觉分层Transformer 的PVT [32]的结构, 该设计包含了4个阶段的金字塔结构, 每个阶段由Patch embed 或Patch merging 和多个SGWin Transformer block 串联组
1978自      动      化      学      报49 卷
合而成. 如图3(b)所示, 每个SGWin Transformer
block 由两组结构串联组成, 第一组结构包括一个W-MSA 模块和一个MLP, 第二组结构由一个SGW-MSA 模块和一个MLP 模块组成, MLP 对输入特征图进行非线性化的映射得到新的特征图,SGW-MSA 局部自注意力机制的示意图如图3(c)所示. 整个模型的计算过程为: 输入图片通过Patch embed 将输入图像下采样4倍, 并得到指定通道数的特征图, 特征图会被送入Stage 1的SGWin Trans-former block 中, 通过W-MSA 、SGW-MSA 模块提取局部特征和图像中的上下文信息并建立所有窗口之间的信息流通, Stage 1最后一个SGWin Trans-former block 的输出会被送入Stage 2中, 除Stage 1之外的所有Stage 会通过一个Patch merging 将上一个阶段输出的特征图尺寸降采样两倍(宽和高
变为原来的二分之一), 通道维度变为原来的两倍.整个网络之后可以接一个Softmax 层和一个全连接层用于图像分类任务, 并且每个阶段的特征图可输入到目标检测的FPN [33]部分中进行多尺度目标检测.
1.3    SGW-MSA 局部自注意力机制
d h min d h
max d w min d w
max 当出现式(5)或式(6)中的情况时, 两个窗口之间的纵(横)向距离大于一定值时就无法建立连接. 当出现式(7)中的情况时, 两个窗口之间的纵(横)向距离大于或小于一定值时都无法建立连接.因此式(7) 中的问题包含式(5)和式(6)存在的问题. 仅考虑式(7)中的情况, 将纵向无法建立窗口连
接的两个距离分别记为  和 , 将横向无法建
立窗口连接的两个距离分别记为  和 . 如图4
Images
MLP MLP
LN LN LN
LN
SGW-MSA
W-MSA (a) SGWin Transformer 的整体结构
(a) Overall architecture of SGWin Transformer
(b) SGWin Transformer 的基础模块(b) SGWin Transformer block (c) SGW-MSA 局部自注意力机制
(c) SGW-MSA local self-attention mechanism
Stage 1
SGWin Transformer
block P a t c h  e m b e d
H  × W  × 3h  × w  × c
h  × w  × c
h  × w  × c /3
h  × w  × c /3
h  × w  × c /3
× 2Stage 2SGWin Transformer
block
P a t c h  m e r g i n g
× 2Stage 3SGWin Transformer
block
P a t c h  m e r g i n g
S p l i t
C o n c a t
× 6Stage 4SGWin Transformer
block
P a t c h  m e r g i n g
× 2
H /4 × W /4 × C
H /8 × W /8 × 2C
H /16 × W /16 × 4C
H /32 × W /32 × 8C
图 3    SGWin Transformer 整体架构
Fig. 3    Overall architecture of SGWin Transformer
9 期
赵亮等: 基于重组性高斯自注意力的视觉Transformer 1979
d h min (d w
min )
d h max (d w
max )所示, 为了能够建立所有窗口之间的信息交互, SGW-MSA 将输入特征图在通道上均匀拆分成3组, 对第一组特征图使用现有的Shuffled W-MSA 等间隔
采样点组成窗口用于纵(横)向距离大于 且小于  窗口之间的联系; 后两份特征图分别使用横向高斯窗口自注意力HGW-MSA 和纵向高斯窗口自注意力VGW-MSA 计算局部自注意力, 建立Shuffled W-MSA 未能建立的窗口的联系.最后将3个部分的局部自注意力计算结果在通道上进行合并得到最终的输出结果.
h  × w  × c
h  × w  × c
h  × w  × c /3
h  × w  × c /3
h  × w  × c /3
S p l i t
C o n c a t
Shuffled W-MSA
Horizontal
Gauss W-MSA
Vertical Gauss W-MSA
图 4  SGW-MSA 局部自注意力示意图Fig. 4    SGW-MSA local self-attention diagram
1.3.1    GW-MSA 局部自注意力机制
d h min (d w min )d h max (d w
max )GW-MSA 可用于建立Shuffled W-MSA 未能建立的窗口连接, 分为VGW-MSA 和HGW-MSA 两种不同的形式. 如图5所示, 每个形式的GW-MSA 由混合高斯权重重组GWR 模块、常规局部自注意力W-MSA 和逆混合高斯权重重组(re Gaussian weight recombination, reGWR)模块3个部分组成, 其中GWR 是本文为了建立纵(横)向距离小于
或者大于  窗口之间的信息交互提出的一种特征图重组的策略.
h w W h W w W b (W b <W h )w h W b (W b <W w )h w w b W b 假设特征图的高和宽分别为  和 , 局部窗口的高和宽分别为  和 . GWR 会将输入特征图划分成多个长条形状的基础元素块(Basic element block, BEB), 计算纵向的VGW-MSA 时将特征图按高切分成若干份高宽分别为  和 的横条基础元素块, 如图6(a)所示. 计算横向的HGW-MSA 时将特征图按宽切分成高宽分别为 和  的竖条基础元素块, 如图6(b)所示. 当  或  不能整除  时, 取最大可以整除  的长度作为重组区域.
d h min (d w
min )d h max (d w
max )为所有的基础元素块建立高斯权重分布表, 结
合高斯权重分布表尽可能使距离小于  或
者大于  的基础元素块放在一起用于重组
特征图. 然后在重组后的特征图上使用W-MSA 计算局部自注意力. 高斯权重分布表由一维高斯分布公式得到:
A µσ2式中  代表权重的幅值,  表示均值,  为方差.GWR 策略的思想就是根据高斯分布的特性. 如图6(c)和图6(d)所示, 纵向基础元素块越靠近图像上边缘或下边缘, 权重越小; 横向基础元素块越靠近左边缘和右边缘, 权重越小. 权重越高的基础元素块对应图像中的位置颜越亮, 代表对应位置的权重越
VGW-MSA
HGW-MSA
横向 BEB
纵向 BEB
GWR 策略
A -ExpJ
W-MSA
reGWR
reGWR
A -ExpJ 横向高斯权重热力图
纵向高斯权重热力图
图 5    GW-MSA 局部自注意力示意图
Fig. 5    GW-MSA local self-attention diagram
w
h
W b
W w
W b
W h
W h
W w
(a) 纵向基础元素块
(a) Vertical basic element
block
(b) 横向基础元素块(b) Horizontal basic element
block
(c) 纵向基础元素块高斯权重(c) Vertical basic element block Gaussian weights (d) 横向基础元素块高斯权重
(d) Horizontal basic element
block Gaussian weights
图 6    纵横向基础元素块示意图Fig. 6    Schematic diagram of vertical and
horizontal basic element block
1980自      动      化      学      报
49 卷