用于遥感检测的多核inception网络
CVPR2024
简介
(动机)在遥感图像的目标检测中,通常面临着一系列日益严峻的挑战,包括目标尺度的巨大变化以及不同范围的背景
由于遥感图像是卫星或者传感器,从非常远的距离所获取的地球表面图像,但是距离是不确定的,因此同一类型的目标,例如汽车或者建筑物,可能在图像中呈现出不一样的尺寸大小,
其次由于地形的复杂,图像背景包括城市,森林,河流,它们在图像中所占的区域,大小也是各不相同的
如上,作者所提到的两个挑战
(1)目标尺度的巨大变化
(2)不同范围的背景
(对比以前)以往的方法,试图通过扩大主干网络的空间感受野来应对这些挑战,例如采用大核卷积或者扩张卷积,然而前者通常会引入相当大的背景噪声,而后者会产生过于稀疏的特征表示.
大核卷积和扩张卷积具有很大范围的空间感受野
但是大核卷积,可能会将目标和背景特征的信息混在一块,引入一些噪声,而扩张卷积只提取部分位置的特征,有一些位置的特征直接就给丢掉了,这可能就会不小心丢掉一些重要的特征
因此本文提出了一种多核Inception网络,用于应对上述挑战
PKINet通过无扩展的多尺度卷积核来提取不同尺度的目标特征,并捕捉局部上下文信息
无扩张的多尺度卷积核,这意味着既可以提取多尺度的目标特征信息,还不会丢掉一些重要的特征
🚩 写作
作者在这里先点明动机,然后提出现有方法的局限性,最后再来提出自己的方法,逐步递进,有理有据
此外还引入了并行的上下文锚点注意力模块,以捕捉长程上下文信息,两个组件的共同协作,提升了PKINet在四个具有挑战性的遥感检测基准上的性能
上下文锚点注意力,适用于捕捉长程上下文信息
PKINet用于提取多尺度特征和局部上下文特征
五大性质
局部性,全局性,稀疏性,多尺度性,复杂性
模型图
图(a) 首先 PKINet 由多个阶段串联构成(stage $l$ )(图(b)) ,每个阶段都是一个两分支结构,包含前馈神经网络和一个PKI Block(图(c))
PKI Block也是一个两分支的结构,也就是本文的重点
PKI Block = PKI Module + CAA Module
PKI Module就是那种最简单的2D卷积层(方法看多了千篇一律),只是卷积核大小不一样,最后的 Identity就是残差
最后将它们相加,并且通过1×1卷积,进行通道上的融合
另外一个创新点CAA模块,首先通过池化层提取图像局部区域特征,然后通过1×1的卷积进行变换,这里的池化层是具有padding的池化层,所以输入和输出的shape是一致的
紧接着通过两个带状的卷积层,分别是$1×11$和$11×1$ (N=0 时)
这两个卷积层分别用于捕捉W方向和H方向上的长程依赖,与传统的$11×11$的2D卷积层相比,这种带动卷积层可以实现类似的效果,并且参数量更少
补充 带状卷积 :
带状卷积在遥感图像中用途非常广,可以用来识别细长形状的物体,例如桥梁
最后通过1×1卷积进行变换,并且通过Sigmoid函数来生成权重,生成的权重,与PKI模块的输出,通过点乘进行交互,得到最终的结果
代码呀也很简单,五行,一个池化层加四个卷积层