PKINet

用于遥感检测的多核inception网络

CVPR2024

简介

(动机)在遥感图像的目标检测中,通常面临着一系列日益严峻的挑战,包括目标尺度的巨大变化以及不同范围的背景

由于遥感图像是卫星或者传感器,从非常远的距离所获取的地球表面图像,但是距离是不确定的,因此同一类型的目标,例如汽车或者建筑物,可能在图像中呈现出不一样的尺寸大小,

其次由于地形的复杂,图像背景包括城市,森林,河流,它们在图像中所占的区域,大小也是各不相同的

如上,作者所提到的两个挑战

(1)目标尺度的巨大变化

(2)不同范围的背景

(对比以前)以往的方法,试图通过扩大主干网络的空间感受野来应对这些挑战,例如采用大核卷积或者扩张卷积,然而前者通常会引入相当大的背景噪声,而后者会产生过于稀疏的特征表示.

大核卷积和扩张卷积具有很大范围的空间感受野

但是大核卷积,可能会将目标和背景特征的信息混在一块,引入一些噪声,而扩张卷积只提取部分位置的特征,有一些位置的特征直接就给丢掉了,这可能就会不小心丢掉一些重要的特征

因此本文提出了一种多核Inception网络,用于应对上述挑战

PKINet通过无扩展的多尺度卷积核来提取不同尺度的目标特征,并捕捉局部上下文信息

无扩张的多尺度卷积核,这意味着既可以提取多尺度的目标特征信息,还不会丢掉一些重要的特征

🚩 写作

作者在这里先点明动机,然后提出现有方法的局限性,最后再来提出自己的方法,逐步递进,有理有据

此外还引入了并行的上下文锚点注意力模块,以捕捉长程上下文信息,两个组件的共同协作,提升了PKINet在四个具有挑战性的遥感检测基准上的性能

上下文锚点注意力,适用于捕捉长程上下文信息

PKINet用于提取多尺度特征和局部上下文特征

五大性质

局部性,全局性,稀疏性,多尺度性,复杂性

作者在这里实现了局部性,多尺度性以及全局性的建模

图(a) 首先 PKINet 由多个阶段串联构成(stage $l$ )(图(b)) ,每个阶段都是一个两分支结构,包含前馈神经网络和一个PKI Block(图(c))

PKI Block也是一个两分支的结构,也就是本文的重点

PKI Block = PKI Module + CAA Module

PKI Module就是那种最简单的2D卷积层(方法看多了千篇一律),只是卷积核大小不一样,最后的 Identity就是残差

最后将它们相加,并且通过1×1卷积,进行通道上的融合

另外一个创新点CAA模块,首先通过池化层提取图像局部区域特征,然后通过1×1的卷积进行变换,这里的池化层是具有padding的池化层,所以输入和输出的shape是一致的

紧接着通过两个带状的卷积层,分别是$1×11$和$11×1$ (N=0 时)

这两个卷积层分别用于捕捉W方向和H方向上的长程依赖,与传统的$11×11$的2D卷积层相比,这种带动卷积层可以实现类似的效果,并且参数量更少

补充 带状卷积 :

带状卷积在遥感图像中用途非常广,可以用来识别细长形状的物体,例如桥梁

最后通过1×1卷积进行变换,并且通过Sigmoid函数来生成权重,生成的权重,与PKI模块的输出,通过点乘进行交互,得到最终的结果

代码呀也很简单,五行,一个池化层加四个卷积层