CVPRW2022. ResNeSt Split-Attention Networks

CVPRW2022. ResNeSt Split-Attention Networks
xiuqhouCVPRW2022. ResNeSt: Split-Attention Networks
为了增强卷积网络的表示能力,文章提出了多分枝的架构,采用不同网络分支之间按通道的注意力来利用特征图注意力和多路径表示的互补能力。所提的模块可以作为残差块简易的替换,产生多特征交互的更强的表示能力。使用所提模块替换ResNet的基本模块,文章提出了新的ResNeSt网络。
主要问题
卷积神经网络能够聚集空间和通道维度上的邻域信息,实现稠密的特征练级,Inception网络探索学习独立的特征多路径表示,对每个通道维度采用单独的卷积滤波核,最后再拼接到一起,因此能够实现输入通道连接的解耦。已有工作探索了空间和通道依赖性,利用了注意力机制。SE通道注意力采用全局池化来压缩通道统计量,预测一组注意力因子来和原始特征做通道乘积,从而使用全局情景信息来选择性地强调特征。这种注意力机制和人类主是网络地注意力选择阶段很相似,都在于寻找所识别物体中最有信息量的部分。
文章贡献/创新点
文章提出一种结合多路径网络布局和按通道注意力策略的网络架构Split-Attention Block,能够捕获跨通道之间的特征相关性,保持元结构中的独立性表示。进一步文章让所有变换共享相同的拓扑,并仅使用少量参数,从而简化网络架构。
Split-Attention Block
Split-Attention block包含两部分,特征图分组和split-attention操作。结构图:
Split-Attention Block
Split-Attention Block中,特征按通道维度进行分组,得到的个特征组被称为基数组,然后再将每个组划分为个小组,总的划分数量为。对每个组用一系列单独的变换,得到每个组的中间表示。
Split Attention in Cardinal Groups
每个基数组内部的划分首先按元素进行相加:
其中是每个基数组的输出特征图尺寸。然后对每个基数组执行全局平均池化:
得到的向量进一步执行softmax,作为加权融合的权重。
其中注意力权重矩阵为两层全连接,ReLU激活。最后每个基数组内部的划分执行加权融合,得到基数组的输出:
ResNeSt Block
将所有基数组的输出进行拼接,得到最后的输出:
并引入残差连接,如果输入输出维度不同时,采用多步长卷积或池化操作来保证维度一致:
和现有注意力方法的关系
SE-Net和SK-Net都采用来squeeze-and-attention操作来利用全局情景对注意力通道进行调制,当radix=1时,Split-Attention对每个基数组执行SE操作,当radix=2时,Split-Attention对每个基数组执行SK操作,因此对SE和SK进行了推广。
这里是指Split-Attention对每个基数组内部执行相同的SE操作,而SE-Net对所有通道执行相同的SE操作,没有考虑组间的差异。而SK划分了分组,但只有2个分组,当Split-Attention的每个基数组内划分数为2时,等价于SK操作。
仿真实验
网络实现没有像ResNet一样采用卷积来保持空间信息,而是采用了的平均池化。另外将ResNet网络中stem部分的卷积替换为三个连续的卷积。对于步长为的卷积,增加了的平均池化残差连接。实验中还采用了一些高级增强策略,包括大批量分布式训练、标签平滑、自动增强、Mixup、大裁剪尺寸、正则化。