无源目标检测 (SFOD) 需要将在标记的源域上预训练的检测器调整到目标域,只有来自目标域的未标记训练数据。现有的SFOD方法通常采用伪标签范式,模型自适应在预测伪标签和微调模型之间交替进行。
在今天分享中,研究者提出了一种新颖的Learning to Overlook Domain Style(LODS)方法,该方法以有原则的方式解决了这些限制。研究者的想法是通过强制模型忽略目标域样式来减少域转移效应,从而简化模型适应并变得更容易进行。
为此,增强了每个目标域图像的风格,并利用原始图像和增强图像之间的风格度差异作为模型适应的自监督信号。通过将增强图像视为辅助视图,利用学生教师架构来学习忽略与原始图像的风格程度差异,其特征还在于新颖的风格增强算法和图形对齐约束。大量实验表明LODS在四个基准测试中产生了新的最先进的性能。
目前,关于SFOD问题的研究不多。社区更加关注无源域适配(SFDA)。SFDA的方法大致可以分为两类。
由于源数据不可访问,传统的域适应技术不适用。生成具有源域样式或目标域样式的标记图像,或服从源分布的标记特征。成功的关键是满意的样本生成,这本身就具有足够的挑战性并且没有很好地解决。
获得可靠的标签并不容易,尤其是在领域差距很大的情况下,在自训练过程中总是只取高置信度的标签样本。
很明显,目标域风格(例如成像特征)对域相对于源域的迁移有很大贡献。因此,最小化目标域样式对模型行为的影响将立即有效地减少域转移。在上述基础上,如刚开始的图所示,提出了一种新的领域适应方法(LODS)。
它首先增强每个目标图像的目标域风格,同时保持目标图像的原始风格。这样就构建了基于风格增强图像的辅助视图。有了这个辅助视图,新方法让目标检测器学会忽略目标域样式。学生-教师框架被用来完成这项任务。
style enhancement module(上图(a))首先提取每个图像的风格,即通道均值和方差。对于一幅图像,其增强的目标域风格被计算为它本身和任何目标图像的风格的非线性组合。然后,通过替换增强样式来增强样式。通过将风格增强图像视为另一个领域,可以使用Mean-Teacher框架来利用风格差异进行模型适应(图(b))。目标图像和风格增强版本分别输入教师和学生模型。这两个模型基于Faster-RCNN并初始化为预训练的源模型。基于图匹配的类实例级对齐和图像级对齐旨在帮助教师和学生相互学习。伪标签也用于增加学生模型的辨别力。
基于上述推断,研究者设计了一个风格增强模块,如上图所示。两个网络F1和F2分别设计为近似δ1和δ2。它们中的每一个都由两个全连接层和一个ReLU层组成,具有最小的参数是非线性的。特征编码器E源自预训练的VGG-16模型,并在训练和测试期间固定。****D是编码器的逆。由于风格一致性受限于底层特征,编码器E = E2 ◦E1进一步分为E1和E2部分,其中◦是函数嵌套算子。****D = D2 ◦ D1作为D1和D2也是如此。具体来说,第一次下采样后的第一个ReLU层是分割E的分割线。D被对称分割为E。