【Arxiv2023】Detect Everything with Few Examples
机构:罗格斯大学
论文地址:https://arxiv.org/abs/2309.12969v3
代码地址:https://github.com/mlzxy/devit
本文提出了小样本目标检测领域的SOTA方法DE-ViT,采用元学习训练框架。DE-ViT提出了一种新的区域传递机制用于检测框定位,并且提出了一种空间积分层来讲mask转化为检测框输出。DE-ViT相比之前的方法提升巨大,在COCO数据集上,10-shot提升15AP,30shot提升7.2AP。
文章贡献/创新点
提出了一种FSOD的SOTA方法,DE-ViT,不需要微调。
提出了一种新的区域传递框架,一个将mask转化为box的空间积分层,和一个新的特征投影层。
DE-ViT在多个小样本和单样本检测任务上取得了SOTA性能。
虽然本文的性能很高,但本文采用的是DINO预训练的ViT,而不是其他方法采用的ResNet101作为backbone,所以其性能提升也有很大成都是来自于backbone的改进。
小样本目标检 ...
【CVPR2024】Few-Shot Object Detection with Foundation Models
机构:哥伦比亚大学、中佛罗里达大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/html/Han_Few-Shot_Object_Detection_with_Foundation_Models_CVPR_2024_paper.html
作者简介:Ser-Nam Lim,马里兰大学帕克分校博士学位,2018年-2023年在Meta(前身Facebook)参与计算机视觉、NLP和其他AI领域的研究,研究内容主要是确保航空和电力行业的安全、检测Meta平台上的错误信息,最近专注于AI用于对用户内容的推荐,包括大语言模型(LLM)和计算机视觉交叉点的搜索引擎,2023年秋季加入中佛罗里达大学。代表工作为Visual prompt tuning。
本文主要目的是提高小样本目标检测的精度,用DINOv2预训练的模型作为视觉backbone,使用大语言模型(LLM)来对类别、查询图像这两种输入信息进行上下文小样本学习。 ...
论文精读
未读【CVPR2024】Salience DETR Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement
机构:西安交通大学、浙江大学
论文地址:https://arxiv.org/abs/2403.16131
代码地址:https://github.com/xiuqhou/Salience-DETR
论文讲解:https://www.bilibili.com/video/BV1sM4m1k7y7
代码讲解:https://www.bilibili.com/video/BV1gt421u79u
本文主要解决DETR方法中计算量高、小物体难检测的问题,考虑到前景比背景信息更重要,文章提出了分层过滤的机制,仅对前景query进行注意力编码,从而降低计算量。并提出了一系列即插即用的query微调模块来加强query之间的信息交互和融合。Salience-DETR相比DINO降低了30%计算量,速度更快,同时性能更高,与Rank-DETR相当。
文章贡献/创新点
分析了目标检测存在的两个 ...
【NIPS2023】Rank-DETR for High Quality Object Detection
机构:清华大学、北京大学、剑桥大学、微软亚洲研究院
论文地址:https://arxiv.org/abs/2310.08854
代码地址:https://github.com/LeapLabTHU/Rank-DETR
作者简介:黄高,清华大学博士学位,康奈尔大学计算机系博士后,清华大学自动化系助理教授、博士生导师,获阿里巴巴“达摩院青橙奖”、2019年吴文俊人工智能优秀青年奖等。代表作DenseNet获得CVPR2017年最佳论文、Stochastic Depth。研究方向包括动态神经网络、高效深度学习。
本文考虑到DETR模型中query的重要性存在差异,致力于改进高IoU情况下(例如AP@75)的检测性能,首次提出基于排序思想的Rank-DETR,在Transformer中引入排序相关的网络层、排序导向的损失函数和匈牙利匹配损失。在COCO数据集上的性能高于DINO、Align-DETR、GroupDETR等baseline,与Stable-DINO、MS-DETR、Sa ...
Linux命令
本文总结Linux系统(主要是Arch Linux)中常用的操作和配置,以防遗忘。
软件位置
路径
内容
/opt/
放置第三方大型软件
/usr/share/applications/
已安装软件的可执行文件快捷方式
/usr/bin
上述快捷方式的软连接,桌面环境的已安装软件目录就是基于这个文件夹的内容来获取的
桌面快捷方式的编写规范:
1234567891011121314[Desktop Entry]Version=Encoding=UTF-8Name=Comment=Exec=/usr/local/bin/qqIcon=/usr/local/share/tencent-qq/qq.pngTerminal=Type=ApplicationCategories=Application;Network;Tencent Software;StartupNotify=trueName[zh_CN]=腾讯QQGenericName[zh_CN]=Comment[zh_CN]=腾讯QQ
环境变量
环境变量是一个具名对象,包含应用程序可以使用的数据 ...
MMDetection性能优化
使用MMDetection训练时发现速度特别慢,使用nvidia-smi -l 1命令,发现训练时GPU利用率大部分时间是0,说明GPU处于空闲状态在等待数据的到来,内存带宽和数据加载速度已经成为模型训练的瓶颈了,需要想办法提升加载速度。
设置PyTorch可以使用的最大线程数
PyTorch默认使用一半的CPU核心运行,而MMDetection在运行时为防止机器过载可能会限制可利用的核心数为1,导致速度慢,可以在训练的语句前面加上环境变量来修改这一限制。
1234# 原始命令python tools/train.py configs/tile/faster_rcnn_r50_fpn_100e_tile_coco.py# 修改后的命令OMP_NUM_THREADS=2 OPENBLAS_NUM_THREADS=2 MKL_NUM_THREADS=2 VECLIB_MAXIMUM_THREADS=2 NUMEXPR_NUM_THREADS=2 python tools/train.py configs/tile/faster_rcnn_r50_fpn_10 ...
ICMLW2019. Neural Message Passing for Visual Relationship Detection
论文地址
代码地址
arXiv
123456@article{hu2022neural, title={Neural message passing for visual relationship detection}, author={Hu, Yue and Chen, Siheng and Chen, Xu and Zhang, Ya and Gu, Xiao}, journal={arXiv preprint arXiv:2208.04165}, year={2022}}
文章旨在解决一张图片中的物体关系检测问题,物体和关系的随机组合会导致过多可能性。由于和相同物体关联的关系是具有依赖性的,因此文章借助这种依赖关系来减少搜索空间。通过利用交互图精确地建模物体和关系,然后提出信息传播算法来传递情景信息。提出了NMP方法,进一步集成语言先验和 ...
CVPR2018. Iterative Visual Reasoning beyond Convolutions
论文地址
代码地址(PyTorch)
代码地址(Tensorflow)
arXiv
1234567@InProceedings{Chen_2018_CVPR,author = {Chen, Xinlei and Li, Li-Jia and Fei-Fei, Li and Gupta, Abhinav},title = {Iterative Visual Reasoning Beyond Convolutions},booktitle = {Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},month = {June},year = {2018}}
文章提出了迭代视觉推理的最新框架,框架解决了卷积网络缺少推理能力的问题,包含两个核心模 ...
CVPR2019. Reasoning-RCNN Unifying Adaptive Global Reasoning Into Large-Scale Object Detection
论文地址
支撑材料
代码地址
文章主要解决包含几千种类别的大规模目标检测问题,这类任务通常需要解决长尾分布、严重遮挡和类别歧义的问题。目前的目标检测网络仍然是将每个区域单独对待来执行检测,文章提出了Reasoning-RCNN,通过利用人类先验知识图,增强任何目标检测网络的自适应全局推理能力。文章首先通过收集以前针对每个类别分类层的权重来生成全局的语义池化,然后在全局语义池中通过获取语义情景来自适应地增强每个类别的特征,因此能够在特征演化过程中自适应地增强特征。Reasoning-RCNN足够轻量,能够自适应地增强任何目标检测网络的backbone环节。文章在VisualGenome获得约16%提升、ADE获得约37%提升,MSCOCO约15%。
主要问题
大规模检测任务中存在物体遮挡、类别歧义和小尺寸物体,目前的目标检测网络缺少像人类一样的借助先验知识来进行推理的能力。当前一些工作已经探索了利用知 ...
论文精读
未读T COGN DEV SYST2022. Bioinspired Visual-Integrated Model for Multilabel Classification of Textile Defect Images
论文地址
现代纺织工业过程的识别和分类过程中,使用卷积神经网络在单标签分类任务具有优越的性能,但多标签分类任务中无法解决判别小尺寸缺陷、考虑互相关标签的问题。文章提出了生物启发的多标签纺织分类方法BIVI-ML,继承了视觉增益模块、视觉注意力模块和视觉记忆模块,以达到增强分辨率和特征判别性、获取纺织品缺陷和联系相关标签的目的。文章构建了多标签纺织品分类的数据集,BIVI-ML方法在单标签分类和多标签分类任务中都展示了最优的性能。
主要问题
现代纺织品工业中,大量研究集中于单标签分类问题,而多标签分类更有挑战性,且更符合现实中的情况。卷积神经网络在单标签分类问题上得到了广泛应用,但直接应用与多标签分类会有问题:
缺陷尺寸很小,卷积网络提取的特征尺寸又经过压缩,难以正确分辨缺陷。
缺陷的多种标签之间的耦合和干扰会提高分类问题的复杂性。
相比不需要考虑相关性的单标签, ...