[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation

[论文解读] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation
3D-U2网络:一种用于多域医学图像分割的3D通用U网络
论文:https://arxiv.org/pdf/1909.06012
代码:https://github.com/huangmozhilv/u2net_torch/
发表:2019 MICCAI

一、基本介绍
1.1历史背景
U-Net这样的全卷积神经网络已经成为医学图像分割的最新方法。实际上,一个网络是高度专业化的,可以为每个分割任务分别训练。所以与其收集多个模型,不如学习不同任务的通用数据表示法,理想情况下是一个单一模型,并为每个任务添加最少数量的参数。受最近多领域学习在图像分类方面取得的成功的启发,3D-U2net首次探索了一种有前途的通用体系结构,它可以处理多个医学分割任务,并且可以扩展到新的任务,而不考虑不同的器官和成像模式。

1.2 可分离卷积
3D通用U-Net(3D U2-Net)建立在可分离的卷积基础上,假设来自不同域的图像具有特定于域的空间相关性,可以使用逐通道卷积进行探测,同时还可以使用逐点卷积来建模跨通道相关性卷积。

1.3提出的背景
器官与病灶区域分割是医学影像分析中的重要内容之一,传统方法通常需要为每个器官和每种模态单独建立一个分割模型。当面对一种新的分割任务或影像模态时,通常需要重新训练和设计分割网络,缺乏普适性。为此,设计了一种更具普适性的分割模型,利用一个模型实现对多器官与多模态条件下的自适应目标分割。

二、网络结构
2.1 解决思路
先前的多项工作探索了多任务分割,其中所有感兴趣的器官都出现在同一图像中,作者考虑了一个更现实和更具挑战性的场景:对于给定的数据集,仅扫描人体的局部区域,并且图像中仅一个或几个解剖结构被标注。
因为有人认为可能存在跨不同视觉域的通用数据,所以推出了一项新竞赛“ Visual Decathlon Challenge ”(https://www.robots.ox.ac.uk) ,旨在同时建模十个不同样式和内容的视觉域,例如,互联网图像,手写字符,草图,浮游生物等。他们将这种新主题称为 “multi-domain learning”,其工作仅专注于图像分类。作者由此想到建立一个可以处理来自不同领域的医学细分任务的单一神经网络。

2.2结构详解
提出了一个通用的多域医学图像分割体系结构。
背后的主要思想相当直观却又很强大:首先在3D U-Net (或V-Net)的基础上设计一个基本网络,然后用类似于可分卷积代替任意3×3×3的标准卷积,步长为1。然而,方法有如下实质性的不同:
(1)他们的工作集中在图像分类上,这与这里的图像分割有着根本的不同。
(2)他们分三步获得最终的多域体系结构:首先,在ImageNet上预训练一个经过可分卷积修正的ResNet-26;第二,冻结逐点卷积权值并转移到新网络;第三,在每个域上分别训练新网络,并将通道方向的卷积叠加在一起,同时共享来自预训练模型的点方向的卷积权重。
(3)通过简单地添加新的通道卷积,进一步使通用网络适应新的领域。而且,这是第一次学习一个可扩展的通用网络用于多领域医学图像分割。
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第1张图片
通用网络架构基于一个基本网络,它有六个组成部分:(1)输入;(2)编码器路径;(3)瓶颈阻滞;(4)解码器路径;(5)深度监督部分; (6)输出。
输入和输出的通道可以根据成像模态的数量和不同域的类别而变化。通常,输入层使用16个过滤器。
编码器和解码器路径都包含不同分辨率的五个级别,剩余连接应用于每个级别,跳过连接用于为解码器路径保留来自编码器对应方的更多上下文信息。
通过多级分割图的逐元素求和,在解码器路径的末端加入了一个深度监控分支,以提高最终的定位性能。
为了构建通用网络,将上面详述的域适配器插入到基本网络中,以1的步长替换任何标准的333卷积。

2.3损失函数
通过结合Lovsz-Softmax损失和聚焦损失来使用混合损失函数。
Lovsz-Softmax损失能够提高交集-交集分割分数,聚焦损失旨在减轻类不平衡。在训练通用模型的过程中,以循环方式从每个数据集中抽取一批样本,允许每个域为共享参数做出贡献。假设对于第n次迭代,批数据对{xt,yt}来自域Dt,对应的损失Lnis Ln=LL(xt,yt;θu,θt)+Lf(xt,yt;θu,θt), 其中θt是域Dt的域特定参数,θu是神经网络的通用共享参数。LL是Lovsz-Softmax损耗,Lf是焦点损耗的对应物。

三、方法亮点
3.1 深度可分离卷积(Depthwise Separable Convolutions)
深度可分离卷积将传统卷积分解为一个深度卷积+一个1x1卷积
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第2张图片
(a)传统卷积
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第3张图片
(b)深度可分离卷积的深度卷积
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第4张图片
(c)1x1的卷积

域适配器(Domain Adapter ):由特定于域的参数和共享参数组成,并且由可分离卷积来代替标准卷积。

3.2基于可分卷积的思想,设计了一种领域适配器,其由逐通道卷积和逐点卷积组成,逐通道卷积用作提取领域特有特征而逐点卷积用作提取领域间共享特征。以U-Net 3D为骨架网络,将其标准卷积替换成上述领域适配器,形成多领域分割普适性的分割网络结构
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第5张图片
如何组装域特定的通道方向卷积和共享的点方向卷积以形成域适配器

域适配器是确保通用网络成功的关键组件,由特定于域的参数和共享参数组成,并建立在可分离卷积的基础上,而不是标准卷积。在与滤波器W∈R3x3x3xCxC0的标准卷积中,应用于输入张量U∈RCxDxHxW,输出张量U∈RC0xDxHxWis通过下式获得应用C0filters w∈ R3x3x3xCon并行输入,并连接C0output特征映射。
一个简单的计算表明,上述滤波器中滤波器参数的总数为27∫C0。此外,当分别为T个域训练模型时,参数的数量增加了T倍!
在可分离卷积中,计算被分解成两个连续的步骤。第一步将C通道式滤波器与R3x3x3并行应用于输入的每个通道,并将C输出特征映射连接在一起。这里,每个域都有自己的通道式过滤器。
第二步应用C0逐点滤波器w∈R1x1x1xCto输出C0channels的最终特征映射。这里,所有域共享相同的逐点过滤器。一个简单的计算表明,上述滤波器中的总权重数为27∫C∫T+C∫C0。

四、网络模型主要应用及结果
4.1 给出了大量的实验来评估所提出的3D U2-Net在处理医学多器官分割中的作用:
(1)通过分别为每个基域训练基本网络来获得旨在再现传统方法的独立模型;
(2)共享模型,其目的在于调查模型的所有参数是否可以被所有域共享,从而通过将所有基域一起训练单个基础网络而获得;
(3)通用模型,这是最终目标,通过同时训练所有基本域的通用架构来实现。值得注意的是,前两种代表了两种极端的多器官分割方法,并作为通用模型的基线。另外,在一个新的领域上测试了共享模型和通用模型的可推广性。

4.2 实验中使用的图像分割数据集
数据集:
使用了医疗细分十项全能竞赛中的六个公共数据集。前五个数据集被视为基本域,用于训练通用模型。最后数据集被视为新的领域,用于测试通用模型的适应性。数据集的基本特征如表所示。对于每个数据集,随机抽取80%的样本进行训练,剩下的20%作为测试数据。
在这里插入图片描述

4.3 实现细节
预处理:
数据集在形态、图像大小和体素间距方面差异很大。
预处理步骤如下:
(1)将所有图像裁剪到非零值区域,从而减小图像尺寸以减轻计算负担;
(2)将所有图像重新采样到相应数据集的中值体素间距,以保留空间语义;
(3)对于每个患者,图像被剪切到整个图像的强度值的[2.0,98.0]百分位数,随后用每个模态的图像的平均值和标准偏差进行评分归一化;
(4)应用以下数据增强:随机弹性变形、随机旋转、随机缩放和随机镜像。数据扩充是在批处理生成器的训练过程中“动态”完成的,批处理生成器是由德国癌症研究中心医学图像计算部门维护的一个python包。为了适应有限的GPU内存,使用从整个图像中随机采样的补丁来训练网络。
作为推论,是通过滑动窗口以半个大小的步幅在整个图像上移动来生成的。
对于共享模型和通用模型,输入批次是两个大小为128128128的图片,下采样操作数设置为6。然而,对于独立的模型,考虑图像大小来调整每个域的输入大小和分辨率级别,以便最大化计算资源的利用。如果中间形状小于128128128,在输入补丁大小和批量大小之间切换,以使补丁大小具有与中间形状相同的纵横比。设置每个轴的下采样操作数,直到最深层的要素图大小达到8。具体来说,为了准备共享模型和通用模型的补丁,首先提取一个大小与独立模型相同的补丁,然后将其大小调整到上述目标补丁大小。
(nnunet的一些操作大致也是如此)
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第6张图片

4.4结果:
基本领域的定量结果:
表列出了三个模型在每个基本领域的平均骰子分数。沿着列进行比较,观察到独立模型在大多数领域获得最高的分数,并且产生最高的总体平均分数。然而,引人注目的是,与独立模型相比,共享模型和通用模型在大多数领域都实现了中等性能,并且在前列腺基底04的外围区(PZ)和过渡区(TZ)方面获得了显著的提高。与共享模型相比,进一步观察到通用模型在Base05胰腺的胰腺分割中更好。此外,与共享模型相比,通用模型在所有领域的总体平均得分更高。整体性能的提高可归因于使用了与每个领域都非常一致的领域特定参数。
[深度学习论文笔记] 3D U2-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation_第7张图片
一个新领域的量化结果:此外,作者进行实验来说明将训练好的共享模型或通用模型应用于新任务的有效性,这是通过冻结相应的共享逐点卷积或标准卷积,并添加和训练所有其他特定领域的模块(如输入层和通道卷积)来实现的,这些模块与该领域的同类结构并行。
表3(b)显示,与共享模型相比,通用模型在新领域中表现更好,因此表明其泛化能力优于共享模型。这进一步证明了特定领域参数的有效性。通用模型只需几个额外的参数就能适应新的领域,即比传统的独立模型提高0.3%,这正是作者所期望的。

五、网络缺陷和不足
5.1 不足之处
模型复杂性问题:
当研究模型的复杂性时,我们排除了输入层、最后一层和深层监督分支,因为它们从来没有在域之间共享。共享模型中使用的基本网络被视为参考。所提出的3D U2-Net需要最少的参数,这表明它可以有效地跨各种域执行。通用模型的参数总数约为所有独立模型的1%,而这两种模型的分割精度相当。

5.2补充扩展
关于模型理想性:
理想的学习曲线:
模型的最终目标是,误差小并能很好地泛化到未见过的数据(测试数据)。如果测试曲线和训练曲线均收敛,并且误差极低,就能看到这种模型。这种模型能根据未见过的数据非常准确地进行预测。
模型复杂度:
与学习曲线图形不同,模型复杂度图形呈现的是模型复杂度如何改变训练曲线和测试曲线,而不是用以训练模型的数据点的数量。一般趋势是,随着模型增大,模型对固定的一组数据表现出更高的变化性。
学习曲线与模型复杂度之间有何关系?
如果我们获取具有同一组固定数据的相同机器学习算法的学习曲线,但为越来越高的模型复杂度创建几个图形,则所有学习曲线图形均代表模型复杂度图形。这就是说,如果我们获取了每个模型复杂度的最终测试误差和训练误差,并依据模型复杂度将它们可视化,则我们能够看到随着模型的增大模型的表现有多好。

六、个人思考总结
知乎上有这样一个问题 :( Unet神经网络为什么会在医学图像分割表现好?)
具体可参考:(图像分割,深度学习做图像分割,适合医学图像分割的Unet网络)
cvpr2021论文都已经出来了,总之网络分割效果在不断提高,方法的种类也千变万化,不管是Unet还是以Unet为baseline的网络,都值得我们参考学习,不断去探索更快更好的结构,为医学做贡献。

总结:
作者提出了一种新的用于多器官分割问题的通用神经网络——3D-U2net,填补了图像分割中可扩展多域学习的空白。实验结果表明,该方法只需很小一部分参数,就能获得与传统训练方法相当的分割性能。由于CT和MRI图像是手头的常规图像,人体器官的数量是恒定的,因此多器官分割的通用模型可以在不久的将来得到充分发展。此外,所提出的框架可以扩展到许多其他多领域的应用,从而促进神经网络向临床实践的转化。

你可能感兴趣的