医学图像分割的多尺度交叉轴注意力
2023 年 arxiv
简介
由于病变区域或器官的不同大小和形状有效的捕获多尺度信息并建立像素之间的长程依赖性对于医学图像分割至关重要
(点名动机)对图像进行多尺度建模,对远距离的像素之间进行长程依赖建模
五大性质:局部性,全局性,稀疏性,复杂性,多尺度性
在本文中提出了多尺度交叉轴注意力,在两个并行的轴向注意力之间,计算双交叉注意力,以更好地捕捉全局信息,而不是简单地沿着水平和垂直方向依次连接轴向注意力
从这句话中,能够捕捉到三个关键信息
第一: 轴向注意力
第二: 并行
第三: 双交叉注意力
轴向注意力
轴向注意力类似坐标注意力中的思想
(坐标注意力)
把二维图像压缩成一维图像,可以沿着H方向或者是W方向进行压缩,在进行后续操作的时候,可以有效的降低计算复杂度,坐标注意力对压缩后的特征执行全连接层
(SeaAttention)
对压缩后的特征执行注意力
SeaAttention是分别对H方向和W方向压缩后的特征执行注意力
是并行的,没有交互
作者提到,在本篇论文中,不是简单的沿着水平和垂直方向,依次连接轴向注意力,而是在两个并行的轴向注意力之间,计算双交叉注意力,这里涉及到了交互
继续,为了处理病变区域或器官在个体大小和形状上的显著变化,我们还在每个轴向注意力路径中使用具有不同卷积核大小的多个卷积层以提高所提出的MCA在编码空间信息方面的效率
作者额外添加了多尺度的卷积操作可以高效地提取多尺度的特征
本文所提出的网络称之为MCANet,只有4M个参数,实现了最佳的性能
模型架构图
Encoder是多尺度的卷积注意力,可以高效地捕捉多尺度信息
Decoder就是作者提出的多尺度交叉轴注意力,它接受encoder的多尺度信息作为输入,首先将多尺度信息进行拼接,通过1×1卷积在通道上进行融合,接下来就是两个并行的多尺度轴卷积,以及具有交互性质的交叉轴注意力机制,分别是在W方向上以及H方向上进行操作,最后将其进行融合,并通过一系列的变换来生成输出
多尺度轴卷积&交叉轴注意力
多尺度的轴卷积思想很简单,就是利用多个具有不同卷积核大小的条状卷积,来捕捉特定空间方向上的多尺度特征,例如在W方向上执行1×7, 1×11,1×21的条状卷积,只捕捉W方向上的多尺度局部特征
在这个H方向上,7×1, 11×1,21×1的条状卷积, 捕捉的就是H方向上的多尺度局部特征
这种轻量级的多尺度卷积,效率高,效果好,所以说它的适用性非常强
然后将这些多尺度特征,通过1×1卷积呢进行融合,并输入到对应的注意力机制中
从图中可以看到,K和V矩阵是通过当前轴特征,通过变换来生成的,但是Q矩阵是另外一个空间方向上的轴特征来生成的
这样做的好处就是能够在H方向和W方向上的特征之间, 通过注意力来建立交互,而不是像之前那样仅仅在某一个固定的方向上,通过注意力来捕捉远程依赖性,那么毫无疑问这样的做法更加符合实际