首页 > 其他分享 >【论文阅读笔记】Enhancing Anchor-based Weakly Supervised REC with Cross-Modal Attention(长度限制,REC简写了)

【论文阅读笔记】Enhancing Anchor-based Weakly Supervised REC with Cross-Modal Attention(长度限制,REC简写了)

时间:2025-02-12 15:54:49浏览次数:44  
标签:模态 Weakly based 特征 监督 模块 REC 文本

来源:ACCV 2024

代码:t22786959/Cross-Modality-Attention-in-weakly-supervised-REC: Enhancing Anchor-based Weakly Supervised Referring Expression Comprehension with Cross-Modality Attention

动机

目前弱监督的REC任务往往因为图像和文本的不一致,预测错误【本文同样是在RefClip论文的基础上所做的改进,笔记在主页有】

创新点

①提出了一种新型的跨模态注意模块,协调文本和视觉特征

②引入了一种使用模式内相似性作为软监督信号的假阴性抑制机制


摘要

弱监督的指代表达理解(REC)可以根据文本描述在图像中识别特定区域,而在训练过程中,文本和目标对象之间没有预定义的映射。主要障碍在于视觉和文本特征之间的错位,通常导致边界框预测不准确。为了解决这个问题,我们提出了一个新型的跨模态注意模块(CMA),该模块可以通过协调文本和视觉特征来增强网格特征的判别能力并提高本地化精度。为了处理弱监督中常见标签中的噪声,我们还引入了一种使用模式内相似性作为软监管信号的假阴性抑制机制。在四个REC基准数据集上进行了广泛实验:reccoco,refcoco+,reccocog和referititgame。我们的结果表明,我们的模型在准确性和泛化性方面始终优于最先进的方法。

1.引言

第一段:先介绍REC任务是什么,与目标检测的区别,具有哪些实际应用;然后根据有监督REC任务的缺陷引出弱监督REC任务;最后指出目前弱监督REC任务存在的不足(视觉和文本特征未对齐;缺乏精准的注释)

第二段:为了解决弱监督REC任务的缺陷,本文提出了一个新的模型,包括一个跨模态注意力模块CMA(跨不同层同步文本和视觉特征)以及特征线性调制模块FiLM(确保特定文本标记与不同抽象级别的相应视觉特征之间的精确对齐),还提出了一种等变正则化方法(解决弱监督对比学习中缺乏基本事实的问题),同时开发了一种机制,使用模态内对之间的相似度得分作为模态间对的软监督信号

第三段:总体介绍实验

2.相关工作

这一部分主要介绍了弱监督REC任务、等变相似性正则化、对比学习中的假阴性问题

3.方法

方法概述:将图像输入yolov3,文本输入双向GRU中,然后将视觉特征与文本特征共同输入跨模态注意力模块CMA中进行融合,然后输入后续的网络之中,相对于RefClip框架而言,新增了两个损失,并进行了多模态融合

3.1总体概述

先介绍RefClip的做法,然后总体介绍本文的做法

3.2跨模态注意力模块

特征线性调制模块FiLM,就是一个公式:(Y是文本特征,F是视觉特征图)

3.3相似性正则化

如上图,使用两个匹配的锚文本对 {Ai, Ti} 和 {Aj, Tj},我们可以计算四个相似度得分:Sii、Sij、Sjj 和 Sji,其中,Sii 表示锚特征 Ai 和文本特征 Ti 之间的相似度得分,Sij 表示锚特征 Ai 和文本特征 Tj 之间的相似度得分,以此类推

本文提出了一种相似度正则化损失,公式如下:

如图 4 所示,在我们的正则化方法中,相同的语义变化导致相似度得分发生类似的变化(-0.55 vs -0.45)

3.4假阴性抑制

为了抑制假负向影响,我们引入了假负向抑制损失:使用模态内对之间的相似度得分作为模态间对的软监督信号,以减轻假负向样本的影响(原理:当同一批次中的两个锚场景在语义上相似时,它们对应的文本表达也应该相似,因此模态间相似度与模态内相似度保持一致)

损失计算公式如下:

最后对比学习的总损失为:

【注意】

标签:模态,Weakly,based,特征,监督,模块,REC,文本
From: https://blog.csdn.net/2301_77141825/article/details/145557761

相关文章