【论文精读】ISBI 2022 - Retinal Vessel Segmentation with Pixel-wise Adaptive Filters

【论文原文】：Retinal Vessel Segmentation with Pixel-wise Adaptive Filters

【作者信息】：Li, Mingxing and Zhou, Shenglong and Chen, Chang and Zhang, Yueyi and Liu, Dong and Xiong, Zhiwei

论文：https://arxiv.org/pdf/2202.01782.pdf
代码：https://github.com/Limingxing00/Retinal-Vessel-Segmentation-ISBI2022

博主关键词：语义分割，语义强化，视网膜血管

推荐论文：无

摘要

由于视网膜血管的纹理复杂和成像对比度低，导致精确的视网膜血管分割具有挑战性。以前的方法通常通过级联多个深度网络来细化分割结果，这既耗时又低效。在本文中，我们提出了两种新的方法来应对这些挑战。首先，我们设计了一个轻量级模块，称为多尺度残差相似性聚集（multi-scale residual similarity gathering, MRSG），以生成逐像素自适应滤波器（point-wise adaptive filters, PA-Filter）。与级联多个深度网络不同，仅有一个PA-Filter层就可以提高分割结果。其次，我们引入了一种响应线索擦除（response cue erasing, RCE）策略来提高分割精度。在DRIVE、CHASE_DB1和STARE数据集上的实验结果表明，我们提出的方法在保持小型结构的同时优于模型效果。

1、简介

语义分割（Semantic Segmentation）是生物医学图像分析的一项基本任务，它可以帮助医生进行诊断，并帮助生物学家分析细胞形态。近年来，卷积神经网络在生物医学图像分割方面表现出了显著的效果。其中，U-Net[1]是应用最广泛的语义分割网络，它由一个用于提取图像特征的编码器和一个用于重构分割结果的解码器组成。U-Net++[2]重新设计了解码器中的跳跃连接，改进了特征融合和表示。

对于视网膜血管的分割，以前的方法大致可以分为三类。第一类设计拓扑感知（topology-aware）损失函数，以帮助网络识别关键结构[3，4]。第二类利用多个深度网络作为细化模块来细化分割结果[5，6，7]。第三类增强了单个网络获得更丰富、更复杂特征图的能力，例如使用注意力机制的特征图[8，9]。本文提出的方法属于第二类。尽管第二类已经具有令人满意的结果，但存在深度网络耗时且效率低下的问题。

为此，我们提出了一种方法，只使用一层像素自适应滤波器（PA-Filters）来细化分割结果，而不是使用深度网络。为了学习PA-Filters，我们提出了一个轻量级模块，称为多尺度残差相似性聚集（MRSG）。对于初始分割图上的每个位置，MRSG生成唯一的PA-Filters。也就是说，与传统的卷积层不同，所设计的PA-Filters不共享权重来更好地捕捉局部区域的纹理。同时，我们提出了一种响应线索擦除（RCE）策略，通过辅助分支实现，以进一步提高分割精度。RCE负责根据主分支的输出擦除输入图像上置信度最高像素的相应位置。我们设计了一个正则化损失来控制双分支的一致性，这使得网络更加鲁棒。在三个具有代表性的视网膜血管分割数据集（即DRIVE、CHASE_DB1和STARE）上进行的实验验证了我们的高效网络实现了最先进的性能。

2、方法

2.1 总览

如图1所示，在训练阶段，网络中有两个分支，主分支和辅助分支，这两个分支的权重是共享的。唯一的区别是辅助分支的输入图像是通过RCE策略处理的。以主分支为例，输入图像 $\in \mathbb{R}^{3×H×W}$ 通过U-Net骨干网络，得到粗分割图 $\tilde{Y}^{(i)}(i=1,2)$ 。然后MRSG提取粗分割图和输入图像，生成大小为 $D \times D$ 的 $H \times W$ PA-Filters $K$ ，其中 $D$ 是超参数。接下来，将PA-Filters应用于粗略分割图上的相应局部区域，以获得最终分割图 $Y^{(i)}$ 。在测试阶段，我们只推断主分支。

2.2 U-Net骨干网络

我们采用U-Net作为骨干网络 $B$ 。给定 $X$ 和 $T (X)$ ，我们可以获得粗分割映射 $\tilde{Y}^{(i)} \in \mathbb{R}^{1 \times H \times W}(i=1,2)$ 。 $T(\cdot)$ 表示RCE运算。 $\tilde{Y}^{(i)}$ 的结算将如下所示：
$\tilde{Y}^{(1)}=B(X,\theta);\tilde{Y}^{(2)}=B(T(X),\theta); \tag{1}$
$\theta$ 是U-Net的参数。在这里，我们将粗略分割图的通道数设置为1，而不是独热码，这便于以下过程。

2.3 多尺度残差相似性聚集

受先前工作[10，11]的启发，我们采用相似性体积来聚集相邻像素的上下文信息。如图2所示，对于 $\tilde{Y}^{(i)}$ ，我们通过每个像素 $P_{center}$ 与其相邻的 $d \times d$ 像素 $P_j$ 之间的元素相乘，计算相似度值 $P_j'$ ，公式如下：
$P_j'=P_j \times P_{center} \tag{2}$

其中 $j$ 表示 $d \times d$ 区域的坐标。因此，对于每个像素，我们都可以获得局部表示。然后，我们沿着通道维度连接局部表示，以获得相似性体积 $S^d(\tilde{Y}^{(i)}) \in \mathbb{R}^{d^2×H×W}$ 。

此外，受ACNet[12]的启发，它表明骨架比正常内核中的角点更重要，我们发现中心像素周围更近的像素更重要。因此，我们提出了一种多尺度残差方案，该方案添加了 $S^d(\tilde{Y}^{(i)})$ 的残差信息，以获得最终的相似性体积 $\hat {S^d} (\tilde{Y}^{(i)})$ 。我们利用残差信息的相似性体积和较小的 $d$ ，并引入瓶颈式操作 $f$ （卷积层、BatchNorm层和ReLU层）来总结不同的体积。基于相似性体积之间的残差求和， $\hat {S^D} (\tilde{Y}^{(i)})$ 可以从多尺度过程 ${S^3} (\tilde{Y}^{(i)}),{S^5} (\tilde{Y}^{(i)}),\ldots,{S^D} (\tilde{Y}^{(i)})$ 中构建。我们展示了整个过程，并以方程3中的 $D = 7$ 为例：
$\hat {S^7} (\tilde{Y}^{(i)})={S^7} (\tilde{Y}^{(i)})+f(\hat {S^5} (\tilde{Y}^{(i)}))={S^7} (\tilde{Y}^{(i)})+f({S^5} (\tilde{Y}^{(i)})+\hat {S^3} (\tilde{Y}^{(i)})) \tag{3}$
在获得 $\hat {S^D} (\tilde{Y}^{(i)})$ 后，我们将 $\hat {S^D} (\tilde{Y}^{(i)}) \in \mathbb{R}^{D^2 \times H \times W}$ 重塑为大小为 $D \times D$ 的 $H \times W$ PA-Filters。然后将PA-Filters应用于粗分割图上的相应局部区域，以获得最终的分割图 $Y^{(i)}$ 。

2.4 响应线索擦除

为了进一步挖掘网络的潜力，我们添加了一个辅助分支，并对辅助分支的输入图像应用RCE策略。如图1所示，我们采用RCE来生成擦除区域，并采用正则化损失来控制双分支的一致性。RCE有两个步骤。首先，选择空间位置集 $\{y_j^{(1)}\}, j \in [0,k-1]$ ，对应于粗略分割图 $\tilde{Y}^{(1)}$ 的 $k$ 个最高置信度像素，其中考虑了前景和背景。第二，擦除输入图像的空间位置集 ${y_j^{(1)} \}$ 。与不能捕获结构的随机擦除不同，RCE在输入图像上生成依赖于结构的掩码。

2.5 总体的损失函数

我们选择计算标签和主分支输出之间差异的dice loss[13]作为分割损失 $L_S$ 。此外，我们提出了对偶分支的正则化损失 $L_R=\parallel Y^{(1)}−Y^{(2)} \parallel _2$ ，这可以约束两个输出的一致性。总损失 $L$ 计算为 $L=L_S+λL_R$ 。

3、实验和分析

3.1 数据集

我们在三个主流的视网膜血管分割数据集DRIVE、CHASE_DB1和STARE上评估了所提出的方法。具体而言，DRIVE[14]由40张来自糖尿病视网膜病变筛查项目的 $565 \times 584$ 大小的视网膜图像组成。按照官方的划分，训练集有20张图像，测试集也有20张图像。CHASE_DB1[15]包含28张大小为999×960的视网膜图像。STARE[16]包含20张尺寸为700×605的视网膜图像。我们遵循[6]中方法的设置，将前20/16个图像划分为训练集，将后8/4个图像分别划分为这两个数据集的测试集。

3.2 实验细节

在实验中，我们使用Pytorch（版本1.1）来实现所提出的方法。NVIDIA GTX 1080Ti用于训练和测试。在训练阶段，我们只使用翻转数据增强。我们使用Adam将损失降至最低，Adam的学习率为0.005，并且在所有数据集上都是固定的。我们采用统一的patch训练策略，将patch大小设置为输入图像大小的0.3倍。因此，DRIVE、CHASE_DB1和STARE数据集的采样patch大小分别为169×175、299×288和210×181。我们在这三个数据集上设置了batch_size为4和最大迭代次数6000。为了平衡性能和计算负担，我们在实验中选择 $D = 5$ 作为PA-Filters。我们根据不同的数据集选择合适的超参数 $k$ 和 $λ$ 。

3.3 定量和定性分析

我们以F1得分（F1）、曲线下面积（AUC）、准确性（ACC）为指标，通过开源进行评估[8]。表1总结了DRIVE、CHASE_DB1和STARE数据集上每种最先进（SOTA）方法的参数和指标。我们可以观察到，所提出的方法在所有三个数据集上都具有最好的F1分数，超过了其他SOTA方法。尽管AG-Net在CHASE DB1数据集上具有最好的AUC，但所提出的方法的参数比AG-Net小4倍，这表明了所提出方法的紧凑性。我们还在图3中显示了三个数据集的分割结果。与其他SOTA方法相比，我们的分割结果具有更详细的纹理和完整的结构。

3.4 消融实验

为了验证所提出方法中每个组件的贡献，我们进行了消融研究。如表2所示，我们评估了PA-Filter和RCE策略的有效性。当我们选择大小为5×5的PA-Filters时，网络的参数仅增加0.012MB，但F1分数增加3.1%。对于PA-Filters，我们在没有RCE策略的情况下评估不同内核大小的影响。如表3所示，以需要更大的GPU内存为代价，更大的 $D$ 实现了更好的性能。尽管 $D = 7/9$ 具有更好的性能，但它超过了CHASE_DB1上固定设置（第3.2节）的内存。为了一致性，我们的实验是基于 $D = 5$ 。

3.5 我们方法的可解释性

在训练阶段，我们没有对PA-Filters的生成进行监督。如图4所示，PA-Filters在中心像素处学习隐含地重建视网膜血管的纹理，而不是局部分割结果。以图4第一列的局部patch为例，从中心点学习的PA-Filters与条纹相似。请注意，中心点位于视网膜血管的边界上。所学习的PA滤波器隐式学习纹理，这使得粗分割图关注血管边界。因此，如图5所示，PA-Filters可以仅使用一层来细化粗略分割结果。

4、总结

在本文中，我们提出了用于视网膜血管分割的PA-Filters和RCE策略。具体来说，我们首先利用U-Net主干来获得粗略的分割图，在此基础上生成PA-Filters。我们设计了一个MRSG模块来生成用于细化的PA-Filters。此外，还提出了一种RCE策略，以进一步提高性能。在三个具有代表性的视网膜血管数据集（DRIVE、CHASE_DB1和STARE）上的实验结果证明了所提出方法的优越性。