CVP2024
EMCAD:用于医学图像分割的有效的多尺度卷积注意力解码
简介
既高效又有效的解码机制在医学图像分割中至关重要,尤其是在计算资源有限的场景中,然而这些解码机制通常具有高计算成本,直接点明了本文要解决的问题是什么,依然是一个复杂度的问题
为了解决这一个问题,引入了EMCAD, 一种新的高效多尺度卷积注意力解码器MSCAM,旨在优化性能和计算效率
从这一句话中,获取两个关键点:
- 第一个:模型的核心是多尺度卷积和注意力
- 第二个:提高了性能和计算效率
回顾:
改进的注意力机制,常用的动机描述:
(1)复杂度
(2)局部性
(3)全局性
(4)稀疏性
(5)多尺度性
该模型匹配了三个点
(1)多尺度
(2)卷积 →局部性
(3)注意力 → 全局性
EMCAD利用独特的多尺度深度卷积块,通过多尺度卷积显著增强特征图,EMCAD还采用了通道空间和分组大内核的门控注意力机制,这些机制在捕捉复杂的空间关系同时专注于显著区域方面非常有效
通过采用组合,分组和深度卷积,EMCAD非常高效且可扩展性良好
这一部分作者提到了它们模型的组件以及它们的作用,组件:
- 通道注意力
- 空间注意力
- 门控注意力机制
- 分组卷积
- 深度卷积
曾经被证明有效的模块全都给堆上来了
模型图
整体是UNet风格:
编码器提取图像的多尺度特征
解码器对特征进一步处理,并逐步融合多尺度特征表示
更具体的来说,使用了4个MSCAM来细化,从编码器的四个尺度中提取的特征,也就是 $x_1,x_2,x_3,x_4$
MSCAM只产生一个输出,但是输送到两个不同的模块:
①第一个就是SH,它将会生成当前阶段的一个分割图表示
②第二个是EUCB,用来上采样的,将MSCAM的输出恢复到和上一个尺度相同的shape大小,然后将它们共同汇入到LGAG模块中进行融合
最后一个阶段的预测图P4,最后作为解码器的输出
重点
纵观整个解码器,要关注的核心有三点:
- 第一个编码器提取的不同尺度特征应当如何进一步细化?
答案 : MSCAM
- 第二个不同尺度的特征应当如何有效的融合
答案 : LGAG
- 第三解码器的输出应当如何有效的集成不同尺度的特征?比如 $p_1,p_2,p_3,p_4$
答案: SH
在这个解码器中,作者只将最后一个阶段的预测图, $p_4$ 作为最终的输出
解析
PART01:MACAM
MSCAM如何细化解码器所提取的特征?
MSCAM是这篇论文中的核心特征提取模块
看图(d)MSCAM包含三个部分:
(1) CAB通道注意力
(2)SAB空间注意力
(3)MSCB多尺度卷积block
图(h) CAB通道注意力
CAB为每个通道分配不同的重要性权重,从而强调更相关的特征,同时抑制不太有用的特征,这是通道注意力的核心思想
这里作者也是这样的,从空间维度上,运用一个最大池化和一个平均池化,然后通过卷积层来提取特征,最后将这两部分特征进行融合,并通过Sigmoid函数来生成权重, 从而调整输入特征的通道表示
图(i) SAB空间注意力
用于确定特征图中哪个位置是最重要的,然后增强重要位置的特征表达,所以说首先在通道维度上应用最大池化和平均池化
然后使用卷积层,将这两部分特征进行融合,接着还是Sigmoid函数生成权重,然后调整输入特征的空间位置表示
图(e) MSCB多尺度卷积块
多尺度卷积块的核心是MSDC(粉色)
图(f) MSDC 多尺度并行深度卷积
利用多个不同大小的卷积层,来增强每个位置的特征表示,但是由于深度卷积,会忽略通道之间的关系,所以说作者在MSDC之前,先升维,然后MSDC中间,通过通道洗牌操作来打乱通道;
MSDC之后,再降维,这样的话,就能够加强通道之间的依赖性关系
PART02: LGAG
第二个关键点LGAG是如何融合相邻尺度特征的
从这个解码器图中可以看到,LAGA首先接受两个输入:
①一个是编码器所提取的特征
②另外一个是下一个尺度细化过的特征.
两个输入共同输入到LGAG模块中
再来看细节图(g),这两部分的特征,先分别通过分组卷积来提取特征,然后将它们相加进行融合,最后再通过Sigmoid函数生成权重,来确定哪些信息是重要的,哪些信息是不重要的,这个筛选后的信息,再输入到MSCAM中进行进一步细化
PART03 如何进行输出的
第三个关键点是如何输出的
作者将最后一个尺度的特征图作为输出,没啥说的必要了
🚩 写在最后
通道注意力,空间注意力,多试试