- 简介组合图像检索(CIR)旨在基于参考图像和条件文本检索目标图像,从而实现可控制的搜索。由于构建CIR三元组数据集的成本昂贵,因此零样本(ZS)CIR设置已经被积极研究,以消除人工收集三元组数据集的需要。ZS-CIR的主流方法采用高效的投影模块,将CLIP图像嵌入投影到CLIP文本标记嵌入空间中,同时固定CLIP编码器。这些方法使用投影后的图像嵌入,通过预训练的文本编码器生成图像-文本组合特征。然而,它们的CLIP图像和文本编码器受到预训练任务(文本$\leftrightarrow$图像)和目标CIR任务(图像+文本$\leftrightarrow$图像)之间任务差异的影响。从概念上讲,我们需要昂贵的三元组样本来减少差异,但我们使用廉价的文本三元组替代,并更新文本编码器。为此,我们引入了用于组合图像检索的文本编码器任务差异降低(RTD)的即插即用训练方案,通过一种新颖的基于目标的文本对比学习增强其能力。我们还提出了两种额外的技术来改进所提出的学习方案:基于硬负例的精细批次采样策略和复杂的连接方案。将RTD集成到基于投影的ZS-CIR方法中,显着提高了在各种数据集和骨干网络上的性能,证明了其效率和通用性。
- 图表
- 解决问题本论文旨在解决由于昂贵的数据集构建成本而导致的Composed Image Retrieval (CIR)三元组数据缺乏的问题,提出了一种零样本(ZS)CIR方法,通过新的训练方案来提高文本编码器的性能,以解决预训练任务和目标CIR任务之间的任务差异。
- 关键思路论文提出了一种名为RTD的训练方案,通过使用一种新颖的目标锚定的文本对比学习来增强文本编码器的能力,从而减少预训练任务和目标CIR任务之间的任务差异。
- 其它亮点论文还提出了两种技术来改进所提出的学习方案:一种基于硬负例的精细批量采样策略和一种复杂的连接方案。实验结果表明,将RTD集成到基于投影的ZS-CIR方法中,可以显著提高性能,并展示了其效率和通用性。
- 在这个领域中,最近的相关研究包括:1)CLIP模型的研究;2)零样本图像检索的研究;3)利用对比学习来训练文本编码器的研究。
沙发等你来抢
去评论
评论
沙发等你来抢