NIPS2018. Hybrid Knowledge Routed Modules for Large-scale Object Detection
论文地址
代码地址
主流的目标检测方法单独处理每个区域的识别问题,忽略了一个场景内物体之间存在的语义互相关性。着会导致面临长尾问题时后续的性能下降。
长尾问题指少量种类的样本占据了大多数,而大量类别仅有少数样本。
文章利用了多种人类常识来推理大尺度目标类别以及达到一张图片内语义上的连贯性。文章提出了混合知识路由模块Hybrid Knowledge Routed Modules(HKRM)融合两种形式的推理:精确的知识模块和非精确的知识模块。通过在区域-区域的图结构上建模,两种模块均可以被个性化,并在特定知识形式的指导下与每张图片的视觉模式相协调。HKRM轻量、通用可以轻松地集成多种知识来赋予任何检测网络全局语义推理的能力。在大规模目标检测基准数据集上的实验表明HKRM在VisualGenome和ADE数据集上分别能够获得大约34.5%的mAP提升。
主要问题
多数基于区域目标检测方法将每个候选框单独地看作是分类和回归问题,因此检测效果 ...
【TMM 2017】Attentive Contexts for Object Detection
北京理工大学、北京交通大学、中山大学、新加坡国立大学
论文地址:https://arxiv.org/pdf/1603.07415.pdf
作者简介:Shuicheng Yan(颜水成),北京大学博士学位,微软亚洲研究院实习,香港中文大学汤晓鸥教授的多媒体实验室任博士后,美国伊利诺伊大学香槟分校师从黄煦涛(Tomas Huang),后加入新加坡国立大学创立机器学习与计算机视觉实验室,拥有终身教职。目前与昆仑万维创始人周亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长。
本文首次使用基于注意力机制的全局和局部上下文信息来进行目标检测,并通过LSTM递归地生成注意力图,最终融合全局和局部上下文信息提高检测性能!
文章贡献/创新点
文章提出了最新的注意力到上下文CNN(AC-CNN)目标检测模型,能够有效地上下文化主流基于候选框的CNN检测器。
基于注意力机制的全局上下文子网能够递归地生成注意力位置图来帮助利用最具判别性的特征以指导局部目标检测。
每个候选框内外的局部上 ...
ICCV2017. Spatial Memory for Context Reasoning in Object Detection
建模实例级的情景、物体与物体之间的关系时非常有挑战的,因为需要推理不同类别、位置的锚框。实例级别的空间推理本质上需要建模以往检测之上的条件分布。但最新的目标检测方法基本都是并行检测所有目标,然后执行非极大值抑制。尽管在图片caption等任务中使用了图像级别的记忆,但是没有捕获空间布局的关系。另一方面,建模物体和物体之间的关系需要空间推理,我们不仅需要存储空间布局,也需要有效的推理模块来提取空间模式。文章提出了概念上简单但有效的空间记忆网络Spatial Memory Network(SMN)来建模实例级别的情景关系。空间记忆将物体实例集成会了伪“图像”表示,可以喂给其他卷积网络来完成物体到物体的情景推理。这就引出顺序推理体系结构,其中图片和记忆是被并行地处理,用于获取检测结果,检测结果又会用于更新记忆。SMN在COCO数据集上比Faster RCNN获得了2.2%的提升。
主要问题
情景对图片理解和视觉识别任务非常重要,目前有两类常用的情景模型:图像/ ...
CVPRW2022. ResNeSt: Split-Attention Networks
为了增强卷积网络的表示能力,文章提出了多分枝的架构,采用不同网络分支之间按通道的注意力来利用特征图注意力和多路径表示的互补能力。所提的模块可以作为残差块简易的替换,产生多特征交互的更强的表示能力。使用所提模块替换ResNet的基本模块,文章提出了新的ResNeSt网络。
主要问题
卷积神经网络能够聚集空间和通道维度上的邻域信息,实现稠密的特征练级,Inception网络探索学习独立的特征多路径表示,对每个通道维度采用单独的卷积滤波核,最后再拼接到一起,因此能够实现输入通道连接的解耦。已有工作探索了空间和通道依赖性,利用了注意力机制。SE通道注意力采用全局池化来压缩通道统计量,预测一组注意力因子来和原始特征做通道乘积,从而使用全局情景信息来选择性地强调特征。这种注意力机制和人类主是网络地注意力选择阶段很相似,都在于寻找所识别物体中最有信息量的部分。
文章贡献/创新点
文章提出一种结合多路径网络布局和按通道注意力策略的网络架构Split-Attention Block,能够捕获跨通道之间的特征相关性, ...
论文精读
未读TPAMI2022(Submission). UniFormer: Unifying Convolution and Self-attention for Visual Revognition
这篇文章是ICLR的接受论文,目前扩展后投往TPAMI但还未接受。
论文地址
代码地址
由于视觉数据中较大的局部冗余和复杂的全局依赖,学习图像和视频确定性的表示是一项具有挑战性的任务。卷积网络能够有效通过小邻域聚集有效降低局部冗余,但感受野尺寸使其难以捕获长期依赖,视觉transformer能够有效捕获长期依赖,但是盲目地在所有token之间建立相似性比较会带来较高的冗余。文章提出了一种最新的Unified transFormer(UniFormer),无缝集成卷积和自注意力的优点。文章在浅层和深层分别使用全局token affinity,因此能够通过有效的表示学习解决局部冗余和全局依赖。
主要问题
视频数据中面临两项挑战,局部冗余,即局部区域内的视觉内容很相似;复杂的全局依赖,即不同区域的目标之间具有动态关系。主流方法如卷积和ViTs分别使用卷积和自注意力作为核心操作,但仅能解决其中一个问题。 ...
CVPR2022. Semantic-Aware Domain Generalized Segmentation
论文地址
支撑材料
arXiv
代码地址
12345678@InProceedings{Peng_2022_CVPR, author = {Peng, Duo and Lei, Yinjie and Hayat, Munawar and Guo, Yulan and Li, Wen}, title = {Semantic-Aware Domain Generalized Segmentation}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = { ...
CVPR2022. Compound Domain Generalization via Meta-Knowledge Encoding
论文地址
Arxiv
12345678@InProceedings{Chen_2022_CVPR, author = {Chen, Chaoqi and Li, Jiongcheng and Han, Xiaoguang and Liu, Xiaoqing and Yu, Yizhou}, title = {Compound Domain Generalization via Meta-Knowledge Encoding}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022 ...
CVPR2022. Memory-Augmented Non-Local Attention for Video Super-Resolution
论文地址
文章提出了一种简单但有效的视频超分辨率方法。以往方法普遍采用时间上近邻的视频帧来帮助当前帧实现超分,但会存在空间帧对齐的问题,另外从附近相似的低分辨率图片中可能无法获得有用信息。文章采用跨帧非局部注意力机制来实现无需帧对齐的超分辨率,并设计了一种最新的记忆增强注意力模块来记住超分辨率训练过程中通用的视频细节,具有更好的精度和更高的泛化性能。
主要问题
视频超分辨率致力于从低分辨率视频中恢复高频细节,但存在两个问题。由于视频是运动的,因此融合相邻帧的信息前视频需要进行对齐,但在跑酷等快速变化的视频很难实现。此外低频视频中往往缺乏帮助视频超分辨率有用的信息,已有工作尝试从高频参考图片中迁移纹理来帮助视频超分,但无法满足时间一致性的问题。也有工作尝试从近邻帧来融合信息。但文章认为近邻帧获得的信息仍然有限,快速运动的视频中相邻帧之间的信息关联性更少,因此更难以挖掘有用信息。文章提出Cross-Frame Non-Local Attent ...
Pin the Memory: Learning to Generalize Semantic Segmentation
论文地址
深度学习模型在语义分割领域取得了一些突破,但在源域训练的模型通常在新的挑战域中不能正常发挥效果,因而会影响泛化性能。文章基于元学习框架提出了记忆引导的领域泛化方法,该方法抽取出领域不变的语义类别概念知识,融入到类别记忆中。根据元学习的概念,文章反复训练记忆引导的网络,并模拟虚拟测试来:1)学习如何记忆领域无关的和独特的类信息;2)提供外部设置的记忆作为类别指导,以减少在任意新领域测试时数据表达的模糊性。文章提出了记忆发散和特征凝聚力损失,以指导面向类别感知领域泛化过程的记忆读取和更新过程。在多种基准数据集上的大量实验,表明了模型相比目前最新方法具有更好的泛化性能。
现有问题
语义分割近期的许多进展主要来自于在大批量稠密标注数据集上的深度神经网络,但在给定数据集(源域)上训练的模型不能很好地迁移到模型训练过程中没有见过的新领域(目标域)。克服两个领域分布的差异对于处理意外和未见过的新数据非常重要,尤其是在医疗诊断、自动驾驶等一些代替人工的任务上。
为了解决 ...
论文精读
未读CVPR2022. FAM: Visual Explanations for the Feature Representations from Deep Convolutional Networks
论文地址
近几年越来越多的注意力机制被用来解释特征表示模型的内部机理,但传统方法不能完全解决特征表示问题。特别是对于不属于任何一个类别的图片,仅依据现有类别和图片间的相似性并不能对其提供可靠的视觉解释。文章提出一种新的视觉注意力解释范式:Feature Activation Mapping (FAM),特征激活映射。遵照这个范式,文章设计了Grad-FAM和Score-FAM来可视化特征表示。与以往方法不同之处在于,FAM关注对特征向量本身最具贡献的图片区域。主观和客观实验表明Score-FAM在人识别任务中能够实现有较好的特征表示可解释性,FAM还可以应用于其他类似自监督表示学习、开放集识别等任务中。
现有问题
模型理解对于卷积网络的应用越来越重要,分类模型中有关特征表示可解释性的方法包括:基于区域贡献的方法和基于图片相似性的方法。
基于区域贡献的方法Class Activation ...