TMM2017. Attentive Contexts for Object Detection

xiuqhou2022-12-032024-08-02

【TMM 2017】Attentive Contexts for Object Detection

北京理工大学、北京交通大学、中山大学、新加坡国立大学

论文地址：https://arxiv.org/pdf/1603.07415.pdf

作者简介：Shuicheng Yan（颜水成），北京大学博士学位，微软亚洲研究院实习，香港中文大学汤晓鸥教授的多媒体实验室任博士后，美国伊利诺伊大学香槟分校师从黄煦涛（Tomas Huang），后加入新加坡国立大学创立机器学习与计算机视觉实验室，拥有终身教职。目前与昆仑万维创始人周亚辉一起出任天工智能联席CEO，并兼任昆仑万维2050全球研究院院长。

本文首次使用基于注意力机制的全局和局部上下文信息来进行目标检测，并通过LSTM递归地生成注意力图，最终融合全局和局部上下文信息提高检测性能！

文章贡献/创新点

文章提出了最新的注意力到上下文CNN（AC-CNN）目标检测模型，能够有效地上下文化主流基于候选框的CNN检测器。
基于注意力机制的全局上下文子网能够递归地生成注意力位置图来帮助利用最具判别性的特征以指导局部目标检测。
每个候选框内外的局部上下文信息可由提出的局部上下文子网捕获，来增强特征表示。
大量实验表明所提的AC-CNN能够有效增强主流的基于区域的CNN检测模型。

注意力到上下文卷积神经网络

网络的输入为图片和对应的物体候选框，图片首先通过一些卷积层和最大池化层来生成卷积特征图。然后基于注意力的全局上下文子网和多尺度局部上下文子网用于利用有用的全局和局部上下文信息来进行最终物体的分类和回归。

AC-CNN网络结构

基于注意力的全局上下文子网

全局上下文子网利用有用的全局上下文信息，首先将特征图池化为 $K\times K\times D$ 固定尺寸，实验中将其固定为 $20\times 20\times 512$ 。将特征矩阵中的特征切片表示为 $X=[\boldsymbol x_i,\cdots,\boldsymbol x_{K^2}]$ ，其中 $\boldsymbol x_i(i=1,\cdots,K^2)$ 为 $D$ 维，再送入堆叠的三层LSTM单元中。

$\left(\begin{matrix} \boldsymbol i_t\\\boldsymbol f_t\\\boldsymbol o_t\\\boldsymbol g_t \end{matrix}\right)=\left(\begin{matrix} \sigma\\\sigma\\\sigma\\\tanh \end{matrix}\right)M\left(\begin{matrix} \boldsymbol h_{t-1}\\x_t \end{matrix}\right)\\ \boldsymbol c_t=\boldsymbol f_t\odot\boldsymbol c_{t-1}+\boldsymbol i_t\odot\boldsymbol g_t\\ \boldsymbol h_t=\boldsymbol o_t\odot \mathbf{tanh}(\boldsymbol c_t)$

其中 $\boldsymbol i_t$ ， $\boldsymbol f_t$ ， $\boldsymbol c_t$ ， $\boldsymbol o_t$ 和 $\boldsymbol h_t$ 分别表示输入门、输出门、单元状态、输出们和隐藏状态。每个时间步 $t$ ，注意力模型都会预测在 $K\times K$ 个位置的softmax，作为权重图 $\boldsymbol I_{t+1}$ ，，代表是否对应区域的估计值从全局来看适合用于目标分类。位置softmax为：

$l_{t,i}=p(L_t=i|\boldsymbol h_{t-1})\\ =\frac{\exp(W_i^\top\boldsymbol h_{t-1})}{\sum_{j=1}^{K\times K}\exp(W_j^\top\boldsymbol h_{t-1})},i\in\{1,\cdots,K^2\}$

总结下来就是每个时间步 $\boldsymbol h_t\in\mathbb R^{d\times 1}$ ， $\mathbf W\in\mathbb R^{K^2\times d}$ ，相乘之后为 $\mathbb R^{K^2\times 1}$ ，然后执行softmax作为权重图。

LSTM下一个时间步的输入特征为：

$\boldsymbol x_t=\sum_{i=1}^{K^2}l_{t,i}X_{t,i}$

其中 $X_t$ 为特征矩阵， $X_{t,i}$ 为第 $i$ 个切片。用图片表示为：

AC-CNN产生基于注意力的全局上下文图

初始化方式：

$\boldsymbol c_0=f_\text{init,c}\left(\frac1{K^2}\sum_{i=1}^{K^2}X_{t,i}\right)\\ \boldsymbol h_0=f_\text{init,h}\left(\frac1{K^2}\sum_{i=1}^{K^2}X_{t,i}\right)$

其中 $f_\text{init,c}$ 和 $f_\text{init,h}$ 是两层感知机，这些值被用来计算第一个位置的softmax $l_1$ ，其决定了初始的输入 $\boldsymbol x_1$ 。最后一步输出的 $\boldsymbol x_{t+1}$ 作为 $D$ 维的特征进行输出，表示为 $\mathbf F_G$ 。

多尺度局部上下文网络

多尺度局部上下文网络用来探索物体候选框内外近邻部分的局部视野。将物体候选框表示为 $\boldsymbol p=(p_x,p_y,p_w,p_h)$ ，其中中心位置为 $p_x,p_y$ 宽高为 $p_w,p_h$ 。文章采用三个尺度的RoI池化 $\lambda_1=0.8$ ， $\lambda_2=1.2$ ， $\lambda_3=1.8$ ，在 $\log$ 尺度中为线性比例。得到三个尺度的特征图 $\{\boldsymbol v_p^i|i=1,2,3\}$ ，然后拼接到一起后经过 $1\times 1$ 卷积降维，将维度从 $7\times 7\times (3\times 512)$ 变换到 $7\times 7\times 512$ ，最后输入两层全连接，生成局部上下文信息的特征表示，表示为 $\mathbf F_L$ 。