ICMLW2019. Neural Message Passing for Visual Relationship Detection
ICMLW2019. Neural Message Passing for Visual Relationship Detection
xiuqhouICMLW2019. Neural Message Passing for Visual Relationship Detection
1 | @article{hu2022neural, |
文章旨在解决一张图片中的物体关系检测问题,物体和关系的随机组合会导致过多可能性。由于和相同物体关联的关系是具有依赖性的,因此文章借助这种依赖关系来减少搜索空间。通过利用交互图精确地建模物体和关系,然后提出信息传播算法来传递情景信息。提出了NMP方法,进一步集成语言先验和空间线索来剔除不真实的关系。
主要问题
视觉关系检测属于低级图像识别(分类、检测)和高级图像理解(image captioning、visual question answering)的中间层级,将主客体和之间的关系表示为三元组的形式(subject-predicate-object)。假设有个物体和个动词,可能会导致种关系,大量地增加搜索空间。Lu等人提出分离的机制,独立地推断物体和动词,将复杂度减少为,但为丧失物体和动词之间的情景信息。此外以前工作没有考虑到关系三元组之间也会存在相互依赖性,例如给定“bus in the front of car”和“car park on road”的情况下,“bus”和“road”的关系更可能是“park on”而不是“drive on”。
文章贡献/创新点
文章构建了交互图,表示物体和边之间的关系,如下图所示,既考虑了物体嵌入,又考虑了边嵌入。此外使用了物体语义先验和空间位置,剔除不合理的关系以及捕获空间交互关系。
- 提出了基于图的方法,精确建模图片中物体之间的关系,使用信息传递算法捕获高级交互关系。
- 引入物体的词嵌入和成对物体之间的相对空间位置关系,作为视觉表观特征的补充。
- 所提方法在两个广泛使用的数据集上超越了以往的最新方法。
文章方法
所提方法结构如下图所示,包括特征提取器、图构建和信息传递、边分类等几部分,可用于动词检测和视觉关系检测任务,两者区别在于:动词检测的目标候选框为预先给出,仅对物体关系进行检测;视觉关系检测需要同时给出物体检测结果和关系检测结果。
特征提取
假设第个物体和bounding box和类别关联,分别由人工标定(动词检测任务)或目标检测网络网络(视觉关系检测任务)给出,文章利用VGG16提取物体的深度视觉特征信息,首先将原图片输入网络,将最后一层卷积的输出应用RoI Align来裁剪对齐物体候选框,进一步喂给最后一层全连接,得到的结果是视觉嵌入,为了弥补视觉特征,文章再次利用word2vector将物体类别映射到词嵌入,得到物体嵌入表示。文章再次利用距离、IoU等结果来表示物体的空间嵌入关系。
这里的意思是,使用RoI Align根据给定或目标检测的候选框,将物体在图片中的特征裁剪出来。所以在视觉关系检测任务中,RoI Align分别在目标检测和这里裁剪特征被使用。
构建图
交互图包括点集和边集,关系三元组和是两种不同的实例,因此得到的图是有向图。动词检测任务中,图根据给定的物体对构建得到;关系检测任务中,作者假定物体之间的交互是近距离的,因此物体的交互关系根据点之间的距离和iou来计算,设置了两个阈值和来剔除不合理的关系。
神经信息传递
神经信息传递用于聚集全局情景信息来提升交互嵌入,相比直接利用图卷积网络,文章构建了节点-边和边-节点的信息传递机制:
其中、、均为使用ELU激活函数的两层全连接神经网络。
边分类
交互嵌入为边嵌入和空间位置嵌入的拼接:,然后送入分类器得到分类结果:,使用交叉熵损失函数。
仿真实验
数据集:使用视觉关系检测(VRD)和视觉基因组(VG)两个数据集。VRD包括5000张图片、100个物体类别和70种动词种类,有1877种关系三元组仅存在测试集中,用于另样本评估。VG包括99658张图片、200个物体类别和100种动作关系。
评估指标:采用Recall@50和Recall@100作为评估指标,Recall@n计算了在前n个有把握的预测结果中,真正例关系预测结果在总的标注关系中的占比。让表示每个物体相关的动作数量,文章报告了多种值下的Recall@n。
下面消融实验展示了信息传递、视觉嵌入、词嵌入和空间位置关系对于检测结果的提升,其中空间位置和词嵌入分别为动词检测提升了1%和3%的精度,信息传递则分别为动词检测和关系检测提升了3%和2%的精度。总体来看,视觉关系检测的提升小于动词检测,可能是因为物体检测错误或漏标。