Correspondence Networks with Adaptive Neighbourhood Consensus
Contents
该文提出了一种建立两张图像间密集语义对应关系的模型(ANC-Net),
- non-isotrppic(非各向同性) 4D convolution kernel – 核心,
- multi-scale self-similarity module
- orthogonal loss
ANC-Net 以两张图像作为输入,输出为4D correlation map – 包含两张图像间所有可能匹配的匹配分数。
Method
网络结构如图所示。
- 输入
- feature extractor ->输出 和
- multi-scale self-similarity ->输出 multi-scale self-similarity 和->captures the complex self-similarity feature map
- We can then obtain the 4D correlation map from and , and the 4D correlation map from and . However, and are often noisy as they lack the constraints to enforce the correspondence validity, and thus are unreliable for directly extracting correspondences.
- ANC module -> a stack of non-isotropic 4D convolutions ->takes and as inputs , refining them by considering neighbourhoods with varying sizes.
- Finally, the ANC module combines the refined correlation maps by simply summing up the two, producing a single 4D correlation map from which reliable correspondences can be retrieved.
Multi-scale self-similarity
给定特征 , self-similarity map 度量每一个特征位置之间的局部相似性。
计算中位置处的特征的self - similarity map 的方法是计算与它自身和它邻域之间的余弦相似性。
如上图所示,考虑一个特征的邻域,可以计算得到个self-similarity scores,将其进行向量化,最终可以得到self-similarity features map 。
为了进一步得到不同self-similarity features 之间的相关性,对进行两次zero-padding convolution 操作,分别得到和。然后将三个不同尺寸的feature map 进行叠加得到,其作为最后一层的输入。
Adaptive neighborhood consensus
什么是4D卷积核?
各向同性的4D卷积核被用于修正4D correlation map 。各向同性的4D卷积核可以被认为建立了两张图像相同尺寸的两个邻域。
然而在实际的图像中的物体,有变化的尺寸和形状,描述相同语义的两个邻域可能有不同的尺寸。因此使用相同尺寸的邻域可能会引入噪声(例如不相关的背景)。为了解决这一问题引入了ANC module ,其包含了一系列的非各向同性4D卷积核。
在模型中,为了解决物体变化的尺寸和形状,将各向同性4D卷积核与非各向同性4D卷积核相结合,使得模型能够动态的决定使用哪一个卷积核