随着影像引导手术和放射治疗的发展,临床对医学图像配准研究的需求更强烈,带来的挑战也更大。最近几年,深度学习,特别是深度卷积神经网络,在医学图像处理方面取得了优异的成绩,在医学图像配准上的研究发展迅速。本文按技术方法分类总结了基于深度学习的医学图像配准的国内外研究进展,包括了基于优化策略的相似性估计、直接估计医学图像配准的变换参数等。然后分析了深度学习方法在医学图像配准上的挑战,并提出了可能的解决办法和研究方向。
引用本文: 邹茂扬, 杨昊, 潘光晖, 钟勇. 深度学习在医学图像配准上的研究进展与挑战. 生物医学工程学杂志, 2019, 36(4): 677-683. doi: 10.7507/1001-5515.201810004 复制
引言
医学图像类型多样,常见的有 X 光,超声成像(ultrasound,US),计算机断层扫描成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)与正电子发射断层扫描成像(positron emission computed tomography,PET)等。医学图像配准是指对两幅或多幅图像建立对应关系,各图像通过各种变换模型被带入同一坐标系,人体上的同一解剖点在两幅或多幅匹配图像上具有相同的空间位置。对于影像引导的放射性治疗、放射外科手术、微创外科手术、内窥镜检查、介入放射性治疗等,图像配准是辅助医疗的关键技术之一。对于单模态的医学图像配准(配准的是同一类型的医学图像),针对同一个患者,不同时期的医学图像配准可以比较病灶生长情况,分析治疗效果。而对于不同的患者,图像的配准可以辅助疾病的诊断。对于多模态的医学图像(配准的是不同类型的医学图像),在外科手术前和手术中,综合利用多种成像设备的信息并实现多模态图像配准有助于病灶的精确定位、辅助放射治疗计划。
现有的医学图像配准方法主要包括两种类型:基于灰度的方法和基于特征的方法。基于灰度的常用方法包括互相关法、序列相似度配准法、互信息法等。基于灰度的方法可用于刚性和非刚性配准,配准精度高,但受到相似性度量最大值的平坦性、单调纹理和高计算复杂度等问题的困扰。基于特征的图像配准方法的核心步骤为:特征提取、特征匹配、模型参数估计、图像变换和灰度插值。特征分为点特征、线特征、面特征等,比较经典的配准方式是用尺度不变特征变换算法(scale-invariant feature transform,SIFT)或者加速鲁棒特征算法(speed up robust features,Surf) 提取特征,结合随机抽样一致算法(random sample consensus,Ransac)筛选特征,得到匹配点对坐标,从而能够计算图像变换参数。传统的配准方法面临的最主要问题是:对于每一对待配准的图像,传统的配准方法从零开始迭代优化代价函数,严重限制了配准速度,忽略了同一数据集图像间共享的固有配准模式[1]。
近年来,模拟人脑学习的深层神经网络在图像识别、语音识别、自然语言、计算机视觉等领域取得了巨大的成功,已成为研究的热点之一。尤其是卷积神经网络(convolutional neural networks,CNN)在计算机视觉的应用中,如分类[2]、分割[3]、目标检测[4]等领域,它已经超过了其他方法。根据文献[5-12],目前深度学习在医学诊断和医学图像处理方面的应用均取得了优异成绩,如检测脑肿瘤、糖尿病视网膜病变、胸片中的结节以及根据 X 光片判断乳腺癌等。利用深层神经网络,对个别疾病可以进行专家级的诊断,如 Esteva 等[13]利用其进行皮肤癌诊断;Gulshan 等[14]将其应用于糖尿病视网膜病变和糖尿病黄斑水肿的自动检测。其中,Esteva 等[13]的研究成果被 x-mol 知识平台(网址为 https://www.x-mol.com/)评为 2017 年 2 月全球科学技术十大突破之五。在医学图像配准上,深度学习方法的应用也取得了最新进展,应用的方法有 CNN、全卷积网络(fully convolutional networks,FCN)等,它对临床的影像引导手术和放射治疗具有重大的意义。
本课题组实验室研究方向为医学图像的分割与配准,近期工作主要集中在深度学习方法在医学图像配准上的研究应用。相对于传统的医学图像配准方法,深度学习在医学图像配准方面的研究成果的最大贡献是改善了处理速度慢的问题。Shan 等[1]指出,利用完全卷积的配准框架,其配准速度比传统方法快 100 倍。以典型三维脑图像为数据集,Fan 等[15]研究了 7 种不同的可变形配准算法的计算成本,结果显示不需要任何迭代优化的深层学习网络(该文作者将其命名为“BIRNet”)需要的时间最少。其次,在应用深度学习方法后,配准精度也有一些改进,如 Cao 等[16]将深度学习方法引入脑部 MRI 图像的配准后,在白质、灰质以及脑脊液的配准上,其骰子相似系数(dice similarity coefficient,DSC)都得到了提升,最大的提升率是 2.6%。本研究团队在鼻咽癌的多模态图像配准上取得了一定的研究成果,配准精度比传统的 SIFT 算法提高了几十倍。本文针对基于深度学习的医学图像配准这个新兴的研究领域,总结其研究进展,分析它的挑战与对策,提出了深度学习在医学图像配准中进一步的研究方向。
1 深度学习在医学图像配准方面的研究进展
基于深度学习的医学图像配准的研究有一些限制因素。Shan 等[1]指出:“对于基于学习的方法:① 很难通过学习和优化变形或相似函数直接获得信息特征表示;② 与图像分类和分割不同,配准标签难以收集。这两个原因限制了基于学习的配准算法的发展”。但是,在脊椎的超声与 CT 图像配准[17]、头部 CT 与 MRI 图像配准[18]、胸部 CT 图像配准[19]等方面,研究者们已经取得了较好的成果。目前已有的研究成果中,提出的深度学习方法主要使用的是 CNN 和 FCN 框架,尤其是使用 CNN 框架的一些方法。
深度学习在医学图像配准上的研究分类可以从深度学习的框架方面分类,也可以按有监督和无监督来分类。本文按照深度学习的框架来分类,在挑战和对策的章节中讨论了有监督和无监督的深度学习,尤其是无监督深度学习的医学图像配准。
1.1 基于 CNN 的医学图像配准的研究进展
深度学习在医学图像配准方面的应用,大量采用的是 CNN 模型,最近几年多采用的 CNN 回归是一种通过学习方法来求解图像配准的手段。
Chen 等[17]于 2016 年提出将 CNN 用于配准,他们在国际医学成像和虚拟现实会议(International conference on medical imaging and virtual reality,MIAR)上提出:在脊柱手术中的图像引导麻醉中,用 CNN 对多个椎体(L2~L4)的二维超声和三维 CT 图像进行配准。具体而言,是用 CNN 将输入图像分类为几个预标定的标准切面,利用预标定切面的空间参数来实现图像的粗配准,之后再使用互信息完成局部配准的精细调整。该方法实现了术中的自动化配准,平均目标配准误差为 2.3 mm,低于临床公认的 3.5 mm,但是提高配准误差主要依靠的是利用互信息方法进行调优。
1.1.1 基于优化策略的相似性估计
配准的关键是选择合适的相似性度量。相似性度量的方法有平方差和、互信息、联合熵等,有研究人员用迭代优化策略,使用 CNN 估计图像之间的相似性度量,将优化图像配准度量作为代价函数来执行。由于匹配度量在似然配准参数空间上的非凸性,这一任务具有一定的挑战性。Eppenhof 等[20]提出了一种基于 CNN 的有监督的图像配准误差图的估计方法。在一组二维数字减影血管造影序列中对 CNN 进行训练和验证,CNN 能够以亚像素精度对二维配准图像中的配准误差进行学习。Cheng 等[18]提出了两种类型的堆叠自动编码器来评估头部 CT 与 MRI 图像的相似性,该方法训练二值分类器来学习两个图像块的对应关系,将分类输出转换为连续概率值,然后作为相似度评分。此外,Cheng 等[18]还提出了利用多模态叠加去噪自动编码器对深层神经网络进行有效的预处理,实验结果证实了该度量方法的高精度和高鲁棒性。Simonovsky 等[21]提出了对新生儿大脑 MRI 图像配准的相似度度量,具体而言是使用 CNN 估计来自不同模式的两个图像块之间的相似成本,网络训练后用于其他主题的图像配准,显示了良好的泛化能力。Liao 等[22]使用 CNN 回归对三维配准的运动动作序列进行建模,该方法以三维原始图像数据为输入,以下一次最优动作为输出,对患者的心脏 CT 和 X 线断层摄影图像(cone beam computed tomography,CBCT)、腹部脊柱 CT 和 CBCT 三维图像进行配准。他们将图像配准问题归结为一个“策略学习”过程,使用强化学习来预测配准的迭代更新,其目标是找到产生图像对齐的最佳运动动作序列,但需要指出的是这个方法仅针对刚体变换适用。
1.1.2 直接估计医学图像配准的变换参数
在基于优化策略的 CNN 回归配准方法中,可变形配准方法需要进行详尽的迭代优化,同时需要参数调整来估计图像间的变形场。虽然以往的研究提出了一些基于学习的初始变形估计方法,但它们往往是模板特有的,在实际应用中并不灵活。Cao 等[16]提出了一种基于 CNN 的回归模型,直接学习从输入图像对到相应的变形场的复杂映射,通过在不同脑图像数据集上进行实验,得到了良好的配准性能。Miao 等[23]提出用 CNN 回归直接估计医学图像配准的变换参数。在 2016 年 IEEE 医学影像深度学习专刊(IEEE transactions on medical imaging,TMI)中,为了评估手术期间植入物体的姿态和位置,Miao 等[23]采用了针对二维 X 光—三维 CT 医学图像配准的深度学习方法。它利用 CNN 回归器,对二维图像和三维图像刚性配准的变换矩阵进行预测,解决了现有基于灰度的二维/三维配准技术的两个主要缺陷:① 计算速度慢。因为每次空间变换参数更新时,都需要做重渲染;② 捕获范围小。它们将特征空间按 20 度的阶次参数化为两个角参数,并训练一个单独的 CNN 来预测转换参数的更新,将固定数量k的感兴趣区域块分别输入 CNN 产生特征向量,然后将这些向量首尾相连,后面接两层全连接层,最后输入回归器。该方法精度高、具有大捕捉范围和实时性,在临床应用中得到了好的评价。但是,他们的模型不能进行可变形的配准。
除了 CNN 回归的方法,Sokooti 等[19]提出了一种基于 CNN 的端到端的方法,可以直接预测给定的固定或运动图像的三维非刚性位移矢量场(displacement vector field, DVF)。Sokooti 等[19]为所设计的一种 CNN 结构取名叫配准网络(RegNet),RegNet 使用大量人工生成的 DVF 进行训练,可以直接从一对输入图像中估计 DVF。这个方法在三维胸部 CT 图像上的配准精度和常规的 B 样条(b-spline)方法的配准精度相当。Yang 等[24]设计了一个深度编解码网络来初始化大变形差分度量映射 (large deformation diffeomorphic metric mapping, LDDMM) 配准模型的动量,使用脑部的开放系列影像数据集(open access series of imaging studies,OASIS)实验了脑部 MRI 图像的配准问题。实验表明,该方法能够准确地预测数值优化得到的配准结果,速度非常快,与获得类似结果的其他实验相比,二维的速度提高了 1 500 倍,三维的速度提高了 66 倍。然而,该方法需要在 CNN 网络之外做一些后处理。
1.1.3 针对小样本的医学图像配准的研究
有监督的深度学习方法一般需要一个具有注释的大型临床数据集进行训练,而医学图像样本量普遍偏少,针对这一情况,Zheng 等[25]提出了一种双域自适应(pairwise domain adaptation,PDA)模块,通过学习域不变特征,将源域(即合成数据)训练的模型调整到目标域(即临床数据)。PDA 模块可以插入到任何经过预先训练的 CNN 模型中,能适应不同的深层网络框架。利用 CNN 的建模能力,提高了术前三维数据和术中二维 X 线图像准确配准的精度和效率。Uzunova 等[26]提出了一种从少量训练样本中学习具有代表性的形状和外观模型的新方法,并将其嵌入到一种新的基于模型的数据增强方案中,从而生成大量的训练数据,解决了 CNN 仅从少量训练数据中学习后进行医学图像配准的问题。
1.1.4 其他研究
Wu 等[27]对脑部 MRI 图像进行配准,他们在 CNN 之前加入非监督学习过程,使模型能自动学习数据特征。具体而言,Wu 等[27]构造了一个叠加的两层 CNN 网络来寻找每个图像块的表示,其中高层特征是从低层网络的响应中推断出来的。将所学习的自适应特征代替手工设计的特征进行图像配准,取得了良好的配准效果。但它们也是一个基于块的学习系统,并依赖于其他基于特征的配准方法来进行图像配准。
光流(optical flow)是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,以找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。Uzunova 等[26]对光流神经网络(命名为:FlowNet)结构进行了改进,将 CNN 集成到光流配准方法中,应用于基于 CNN 的光流估计的医学图像配准问题。
1.2 基于 FCN 的医学图像配准的研究进展
FCN 在医学图像分割上的应用比较普遍,在医学图像配准上的应用还比较少。目前,FCN 主要在心脏 CT 图像和三维脑结构 MRI 图像的配准上取得了一定成效。Marc-Michel 等[28]提出了一种新的基于对两幅图像参数进行预测的配准方法,使用他们所设计的 FCN(和标准 FCN 有差异)对三维心脏 CT 图像进行配准,网络能够检测到无法用滑动窗口方法检测到的全局特征和变形,在图形处理器(graphics processing unit,GPU)上配准两幅三维图像花费不到 30 ms。
由于医学图像的样本有限,而且标注不易,研究人员一直希望在对数据集要求较低的深度学习方法上有所突破。自监督学习通过学习可以生成视觉特征的语义标签信息。Li 等[29]应用 FCN 进行自监督的非刚性图像配准,利用已知的空间变换训练数据来学习空间变换。它类似于传统的图像配准算法,通过和变形运动图像之间的图像相似性度量来直接估计图像对之间的空间变换。Li 等[29]在三维脑结构 MRI 图像集上进行实验,通过 FCN 的前馈计算,经过训练的 FCN 可以对新图像进行配准。
2 挑战与对策
2.1 医学图像样本的挑战与对策
2.1.1 样本问题
深度学习用于医学图像的分析,在样本方面有 3 个困难:① 样本量小,由于隐私等问题很难共享样本;② 需要专家标注样本,耗时、成本高;③ 样本不均衡,病理样本少。
针对这些问题,现有三种对策。针对有监督的深度学习中样本不足的情况,研究者们提出了样本增强的方法和迁移学习的方法。另外,研究者们还提出了无监督学习的方法。
2.1.2 样本增强
针对样本增强,Chen 等[30]总结了 6 类数据增强方法,如下所述。
(1)利用大量无标记数据的流信息学习一个标注样本的学习模型(one-shot)。
(3)借用相关类别的例子或语义词汇表来扩充训练集[33]。
(4)合成新的标注训练数据。Chen 等[30]提出了一种新的双三网自动编码器网络,用于特征增强。编码器将深层 CNN 的多层视觉特性投射到语义空间中。因为语义空间上有更丰富的信息,可以在语义空间上做数据扩充,通过译码器将增强后的实例表示再映射回图像特征空间中得到更多的扩充样例。
(5)使用生成对抗性网络(generative adversarial networks,GAN)生成新示例[34-36]。
(6)用属性引导增强(attribute-guided augmentation,AGA)方法,使得可根据期望值或强度合成样本。Dixit 等[37]提出的 AGA 利用小样本学习方法(few-shot learning)进行数据增强,主要针对三维数据,把图像投影到一个属性空间,生成人工样本来扩展给定的训练数据集,它是在特征空间而非图像空间中进行数据增强。
2.1.3 迁移学习
针对样本不足的情况,还有一个实验验证了的有效方法是迁移学习(transfer learning),即可以采用迁移学习加上微调(fine tuning)来解决医疗图像数据集的困难,本文课题组据此进行了这方面的研究。首先研究了如何在一个分层的方式下,微调预训练的 CNN 可以获得良好的图像处理性能[38]。本课题组使用预训练的 CNN 作为特征提取器,通过使用含有大量标签数据的自然图像库(名为“Imagenet”)对 CNN 进行预训练,将预训练后的 CNN 参数作为监督学习网络的初始值,使用有限的专业图像标注数据集对预训练后的 CNN 中可学习的参数进行调优。在迁移学习训练过程中,对网络的后一半层数进行微调,与对整个网络进行微调相比,它们能够达到几乎相同的精度,但收敛速度更快。Shin 等[39]也研究了迁移学习结合微调的方法,说明了通过 ImageNet 自然图像库预训练的网络的微调何时有用和为什么是有用,他们的方法是除最后一个层外,其他所有层都以比默认学习速率小 10 倍的学习速率进行微调,最终结果通过胸腹淋巴结检测进行了验证,但如何确定不同层次的最佳学习速率仍具有挑战性。
2.1.4 无监督学习
医学样本的标签成本高且难以获得,相对而言,获取大量未标记的医学数据容易得多。考虑到医学图像的独特性和标注的高成本,无监督学习是一个重要的研究方向。迄今为止,有监督模型多比无监督模型表现得要好,无监督学习的研究成果也相对少,但人们非常希望开发一种无监督的、端到端的 CNN 医学图像配准框架。
2015 年,Jaderberg 等[40]提出了一种新的学习模块——空间变换(spatial transformer,ST),让网络明确地利用了数据的空间信息。这种可导的模块可以插入到现有的 CNN 中,使 CNN 在不需要额外训练情况下,对平移、尺度变换、旋转和常见的扭曲具备不变性,能够在不需要监督标签的情况下执行图像对齐。在后续的研究中,利用 ST 模块和其他网络的组合,在无监督的医学图像配准上取得了进展。de Vos 等[41]提出了一种可变形图像配准的深度学习网络(作者命名为“DIRNet”),DIRNet 由 CNN 回归器、空间变换器和重放器组成。DIRNet 对输入图像对之间的相似性度量进行无监督优化,其对心脏 MRI 图像的配准精度与传统的可变形图像配准方法相同,具有较短的执行时间。
前述 de Vos 等[41]的方法美中不足的是在有限的卷集上,只支持小的转换。为了适用处理大变形,最近 Balakrishnan 等[42]结合 CNN 与 ST,做了进一步改进。他们将配准定义为一个参数函数,使用一个 CNN 对该函数建模,并利用空间变换层从另一幅图像中重建图像,同时在配准域上施加平滑约束。这种方法不仅是无监督的不需要大量的标注数据,而且大大加快了速度。
除了结合 ST 模块,Shan 等[1]提出的方法将传统的图像配准算法移植到端对端的 CNN 框架中,同时保持图像配准问题的无监督性质。用于二维肝 CT/MRI、脑 CT/MRI 的医学图像配准,配准速度比传统方法快 100 倍,并且该方法还可以扩展到肝脏和大脑以外的其他器官,如肾、肺和心脏。
此外,2014 年 GAN 问世。GAN 的网络结构是具有颠覆性的,它在同一时间创建一个生成网络和一个判别网络,网络可以接受端到端的训练,并以完全不受监督的方式学习有代表性的特征,这为医学图像的无监督配准提供了一个技术解决的研究方向。
2.2 多模态医学图像配准的挑战与对策
除了单模态图像配准,由于不同成像方式下组织形态的高度变异性,临床上还需要多模态医学图像配准,将成像技术相互取长补短。在基于灰度的多模态图像配准方法中,相关像素的灰度值之间的关联比较复杂。Alam 等[12]指出互信息是多模态图像配准的一种标准相似性度量,但当图像含有局部强度变化时,其性能下降,而且互信息只考虑图像中的强度信息,忽略了空间信息。在基于特征的配准方法中,多模态图像配准取得了一些成绩,如 Chen 等[17]实现了对多个椎体(L2~L4)的二维超声和三维 CT 图像的配准;Miao 等[23]实现了针对二维 X 光图像和三维 CT 医学图像的配准;Cheng 等[18]提出了两种类型的堆叠自动编码器来评估头部 CT 与 MRI 图像的相似性。但是,多模态图像中相同特征和可变特征的提取仍然是一个重要的研究领域。在临床的图像引导手术中,将不同类型医学图像的对比信息关联起来是多模态图像配准中的一项具有挑战性的任务。在图像引导手术中,采用不同的成像方式对患者的器官进行多次扫描,给识别不同成像系统的患者位置和方位造成了困难,因此有必要开发出更先进的配准方法,以便于消除患者定位上的差异[12]。
3 结论
影像引导手术和放射治疗对医学图像配准的研究提出了强烈的临床需求,最近几年深度学习在医学图像配准方面的应用也发展很快,本文分类阐述了基于深度学习的医学图像配准的研究进展,进一步分析了存在的挑战和应对的对策。无论是有监督学习还是无监督学习,深度学习在医学图像配准方面的研究都还有广阔的空间。在临床中,针对术前术中医学图像配准的无监督学习的研究十分具有现实意义。在今后,除了无监督的医学图像配准这个重要的方向外,还有以下有意义的研究方向。
(1)自动标注数据集。在医学图像配准中,通过自动的方法来标注数据是快速的,但取决于深度学习方法。如 Chen 等[30]提出利用每个类的语义直接合成实例特征。Uzunova 等[26]提出的基于 CNN 的深度学习方法,从少数样本图像中生成一组具有已知对应关系的训练图像对,可用于合成大量的具有标注的医学图像配准训练数据。在自动标注的过程中,尚有待解决的问题,比如如何运用深度学习方法高效地标注数据集,减少标记噪声和标记成本等。
(2)临床应用。当前的研究要走向临床应用,还有很多尚待解决的问题,虽然深度学习加快了医学图像配准的计算速度,为实时的配准提供了可能性。但临床数据总是受到噪声、运动和均匀性等强度一致性的影响,影像引导手术中存在组织或小物体遮挡的现象,功能图像有可能是低质量的,这些都为医学图像配准带来挑战。在外科手术指导系统中,需要解决这些挑战,更为准确地对图像中的点进行配准和转换,提高目标配准误差(target registration error,TRE)的正确概率,特别是在非刚性配准的情况下。此外,在手术中,由于组织的变形、患者和设备的移位等,在进行纠正术前图像和术中图像的配准时,需要不中断手术而进行自动配准,所以自动配准,尤其是多模态的自动配准,是一个有临床意义的研究方向。自动图像配准方法的精度在很大程度上取决于算法的精度和优化,正确选择三维地标、准确提取多模态图像中相同特征等,都是自动配准面临的挑战[12]。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
医学图像类型多样,常见的有 X 光,超声成像(ultrasound,US),计算机断层扫描成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)与正电子发射断层扫描成像(positron emission computed tomography,PET)等。医学图像配准是指对两幅或多幅图像建立对应关系,各图像通过各种变换模型被带入同一坐标系,人体上的同一解剖点在两幅或多幅匹配图像上具有相同的空间位置。对于影像引导的放射性治疗、放射外科手术、微创外科手术、内窥镜检查、介入放射性治疗等,图像配准是辅助医疗的关键技术之一。对于单模态的医学图像配准(配准的是同一类型的医学图像),针对同一个患者,不同时期的医学图像配准可以比较病灶生长情况,分析治疗效果。而对于不同的患者,图像的配准可以辅助疾病的诊断。对于多模态的医学图像(配准的是不同类型的医学图像),在外科手术前和手术中,综合利用多种成像设备的信息并实现多模态图像配准有助于病灶的精确定位、辅助放射治疗计划。
现有的医学图像配准方法主要包括两种类型:基于灰度的方法和基于特征的方法。基于灰度的常用方法包括互相关法、序列相似度配准法、互信息法等。基于灰度的方法可用于刚性和非刚性配准,配准精度高,但受到相似性度量最大值的平坦性、单调纹理和高计算复杂度等问题的困扰。基于特征的图像配准方法的核心步骤为:特征提取、特征匹配、模型参数估计、图像变换和灰度插值。特征分为点特征、线特征、面特征等,比较经典的配准方式是用尺度不变特征变换算法(scale-invariant feature transform,SIFT)或者加速鲁棒特征算法(speed up robust features,Surf) 提取特征,结合随机抽样一致算法(random sample consensus,Ransac)筛选特征,得到匹配点对坐标,从而能够计算图像变换参数。传统的配准方法面临的最主要问题是:对于每一对待配准的图像,传统的配准方法从零开始迭代优化代价函数,严重限制了配准速度,忽略了同一数据集图像间共享的固有配准模式[1]。
近年来,模拟人脑学习的深层神经网络在图像识别、语音识别、自然语言、计算机视觉等领域取得了巨大的成功,已成为研究的热点之一。尤其是卷积神经网络(convolutional neural networks,CNN)在计算机视觉的应用中,如分类[2]、分割[3]、目标检测[4]等领域,它已经超过了其他方法。根据文献[5-12],目前深度学习在医学诊断和医学图像处理方面的应用均取得了优异成绩,如检测脑肿瘤、糖尿病视网膜病变、胸片中的结节以及根据 X 光片判断乳腺癌等。利用深层神经网络,对个别疾病可以进行专家级的诊断,如 Esteva 等[13]利用其进行皮肤癌诊断;Gulshan 等[14]将其应用于糖尿病视网膜病变和糖尿病黄斑水肿的自动检测。其中,Esteva 等[13]的研究成果被 x-mol 知识平台(网址为 https://www.x-mol.com/)评为 2017 年 2 月全球科学技术十大突破之五。在医学图像配准上,深度学习方法的应用也取得了最新进展,应用的方法有 CNN、全卷积网络(fully convolutional networks,FCN)等,它对临床的影像引导手术和放射治疗具有重大的意义。
本课题组实验室研究方向为医学图像的分割与配准,近期工作主要集中在深度学习方法在医学图像配准上的研究应用。相对于传统的医学图像配准方法,深度学习在医学图像配准方面的研究成果的最大贡献是改善了处理速度慢的问题。Shan 等[1]指出,利用完全卷积的配准框架,其配准速度比传统方法快 100 倍。以典型三维脑图像为数据集,Fan 等[15]研究了 7 种不同的可变形配准算法的计算成本,结果显示不需要任何迭代优化的深层学习网络(该文作者将其命名为“BIRNet”)需要的时间最少。其次,在应用深度学习方法后,配准精度也有一些改进,如 Cao 等[16]将深度学习方法引入脑部 MRI 图像的配准后,在白质、灰质以及脑脊液的配准上,其骰子相似系数(dice similarity coefficient,DSC)都得到了提升,最大的提升率是 2.6%。本研究团队在鼻咽癌的多模态图像配准上取得了一定的研究成果,配准精度比传统的 SIFT 算法提高了几十倍。本文针对基于深度学习的医学图像配准这个新兴的研究领域,总结其研究进展,分析它的挑战与对策,提出了深度学习在医学图像配准中进一步的研究方向。
1 深度学习在医学图像配准方面的研究进展
基于深度学习的医学图像配准的研究有一些限制因素。Shan 等[1]指出:“对于基于学习的方法:① 很难通过学习和优化变形或相似函数直接获得信息特征表示;② 与图像分类和分割不同,配准标签难以收集。这两个原因限制了基于学习的配准算法的发展”。但是,在脊椎的超声与 CT 图像配准[17]、头部 CT 与 MRI 图像配准[18]、胸部 CT 图像配准[19]等方面,研究者们已经取得了较好的成果。目前已有的研究成果中,提出的深度学习方法主要使用的是 CNN 和 FCN 框架,尤其是使用 CNN 框架的一些方法。
深度学习在医学图像配准上的研究分类可以从深度学习的框架方面分类,也可以按有监督和无监督来分类。本文按照深度学习的框架来分类,在挑战和对策的章节中讨论了有监督和无监督的深度学习,尤其是无监督深度学习的医学图像配准。
1.1 基于 CNN 的医学图像配准的研究进展
深度学习在医学图像配准方面的应用,大量采用的是 CNN 模型,最近几年多采用的 CNN 回归是一种通过学习方法来求解图像配准的手段。
Chen 等[17]于 2016 年提出将 CNN 用于配准,他们在国际医学成像和虚拟现实会议(International conference on medical imaging and virtual reality,MIAR)上提出:在脊柱手术中的图像引导麻醉中,用 CNN 对多个椎体(L2~L4)的二维超声和三维 CT 图像进行配准。具体而言,是用 CNN 将输入图像分类为几个预标定的标准切面,利用预标定切面的空间参数来实现图像的粗配准,之后再使用互信息完成局部配准的精细调整。该方法实现了术中的自动化配准,平均目标配准误差为 2.3 mm,低于临床公认的 3.5 mm,但是提高配准误差主要依靠的是利用互信息方法进行调优。
1.1.1 基于优化策略的相似性估计
配准的关键是选择合适的相似性度量。相似性度量的方法有平方差和、互信息、联合熵等,有研究人员用迭代优化策略,使用 CNN 估计图像之间的相似性度量,将优化图像配准度量作为代价函数来执行。由于匹配度量在似然配准参数空间上的非凸性,这一任务具有一定的挑战性。Eppenhof 等[20]提出了一种基于 CNN 的有监督的图像配准误差图的估计方法。在一组二维数字减影血管造影序列中对 CNN 进行训练和验证,CNN 能够以亚像素精度对二维配准图像中的配准误差进行学习。Cheng 等[18]提出了两种类型的堆叠自动编码器来评估头部 CT 与 MRI 图像的相似性,该方法训练二值分类器来学习两个图像块的对应关系,将分类输出转换为连续概率值,然后作为相似度评分。此外,Cheng 等[18]还提出了利用多模态叠加去噪自动编码器对深层神经网络进行有效的预处理,实验结果证实了该度量方法的高精度和高鲁棒性。Simonovsky 等[21]提出了对新生儿大脑 MRI 图像配准的相似度度量,具体而言是使用 CNN 估计来自不同模式的两个图像块之间的相似成本,网络训练后用于其他主题的图像配准,显示了良好的泛化能力。Liao 等[22]使用 CNN 回归对三维配准的运动动作序列进行建模,该方法以三维原始图像数据为输入,以下一次最优动作为输出,对患者的心脏 CT 和 X 线断层摄影图像(cone beam computed tomography,CBCT)、腹部脊柱 CT 和 CBCT 三维图像进行配准。他们将图像配准问题归结为一个“策略学习”过程,使用强化学习来预测配准的迭代更新,其目标是找到产生图像对齐的最佳运动动作序列,但需要指出的是这个方法仅针对刚体变换适用。
1.1.2 直接估计医学图像配准的变换参数
在基于优化策略的 CNN 回归配准方法中,可变形配准方法需要进行详尽的迭代优化,同时需要参数调整来估计图像间的变形场。虽然以往的研究提出了一些基于学习的初始变形估计方法,但它们往往是模板特有的,在实际应用中并不灵活。Cao 等[16]提出了一种基于 CNN 的回归模型,直接学习从输入图像对到相应的变形场的复杂映射,通过在不同脑图像数据集上进行实验,得到了良好的配准性能。Miao 等[23]提出用 CNN 回归直接估计医学图像配准的变换参数。在 2016 年 IEEE 医学影像深度学习专刊(IEEE transactions on medical imaging,TMI)中,为了评估手术期间植入物体的姿态和位置,Miao 等[23]采用了针对二维 X 光—三维 CT 医学图像配准的深度学习方法。它利用 CNN 回归器,对二维图像和三维图像刚性配准的变换矩阵进行预测,解决了现有基于灰度的二维/三维配准技术的两个主要缺陷:① 计算速度慢。因为每次空间变换参数更新时,都需要做重渲染;② 捕获范围小。它们将特征空间按 20 度的阶次参数化为两个角参数,并训练一个单独的 CNN 来预测转换参数的更新,将固定数量k的感兴趣区域块分别输入 CNN 产生特征向量,然后将这些向量首尾相连,后面接两层全连接层,最后输入回归器。该方法精度高、具有大捕捉范围和实时性,在临床应用中得到了好的评价。但是,他们的模型不能进行可变形的配准。
除了 CNN 回归的方法,Sokooti 等[19]提出了一种基于 CNN 的端到端的方法,可以直接预测给定的固定或运动图像的三维非刚性位移矢量场(displacement vector field, DVF)。Sokooti 等[19]为所设计的一种 CNN 结构取名叫配准网络(RegNet),RegNet 使用大量人工生成的 DVF 进行训练,可以直接从一对输入图像中估计 DVF。这个方法在三维胸部 CT 图像上的配准精度和常规的 B 样条(b-spline)方法的配准精度相当。Yang 等[24]设计了一个深度编解码网络来初始化大变形差分度量映射 (large deformation diffeomorphic metric mapping, LDDMM) 配准模型的动量,使用脑部的开放系列影像数据集(open access series of imaging studies,OASIS)实验了脑部 MRI 图像的配准问题。实验表明,该方法能够准确地预测数值优化得到的配准结果,速度非常快,与获得类似结果的其他实验相比,二维的速度提高了 1 500 倍,三维的速度提高了 66 倍。然而,该方法需要在 CNN 网络之外做一些后处理。
1.1.3 针对小样本的医学图像配准的研究
有监督的深度学习方法一般需要一个具有注释的大型临床数据集进行训练,而医学图像样本量普遍偏少,针对这一情况,Zheng 等[25]提出了一种双域自适应(pairwise domain adaptation,PDA)模块,通过学习域不变特征,将源域(即合成数据)训练的模型调整到目标域(即临床数据)。PDA 模块可以插入到任何经过预先训练的 CNN 模型中,能适应不同的深层网络框架。利用 CNN 的建模能力,提高了术前三维数据和术中二维 X 线图像准确配准的精度和效率。Uzunova 等[26]提出了一种从少量训练样本中学习具有代表性的形状和外观模型的新方法,并将其嵌入到一种新的基于模型的数据增强方案中,从而生成大量的训练数据,解决了 CNN 仅从少量训练数据中学习后进行医学图像配准的问题。
1.1.4 其他研究
Wu 等[27]对脑部 MRI 图像进行配准,他们在 CNN 之前加入非监督学习过程,使模型能自动学习数据特征。具体而言,Wu 等[27]构造了一个叠加的两层 CNN 网络来寻找每个图像块的表示,其中高层特征是从低层网络的响应中推断出来的。将所学习的自适应特征代替手工设计的特征进行图像配准,取得了良好的配准效果。但它们也是一个基于块的学习系统,并依赖于其他基于特征的配准方法来进行图像配准。
光流(optical flow)是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,以找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。Uzunova 等[26]对光流神经网络(命名为:FlowNet)结构进行了改进,将 CNN 集成到光流配准方法中,应用于基于 CNN 的光流估计的医学图像配准问题。
1.2 基于 FCN 的医学图像配准的研究进展
FCN 在医学图像分割上的应用比较普遍,在医学图像配准上的应用还比较少。目前,FCN 主要在心脏 CT 图像和三维脑结构 MRI 图像的配准上取得了一定成效。Marc-Michel 等[28]提出了一种新的基于对两幅图像参数进行预测的配准方法,使用他们所设计的 FCN(和标准 FCN 有差异)对三维心脏 CT 图像进行配准,网络能够检测到无法用滑动窗口方法检测到的全局特征和变形,在图形处理器(graphics processing unit,GPU)上配准两幅三维图像花费不到 30 ms。
由于医学图像的样本有限,而且标注不易,研究人员一直希望在对数据集要求较低的深度学习方法上有所突破。自监督学习通过学习可以生成视觉特征的语义标签信息。Li 等[29]应用 FCN 进行自监督的非刚性图像配准,利用已知的空间变换训练数据来学习空间变换。它类似于传统的图像配准算法,通过和变形运动图像之间的图像相似性度量来直接估计图像对之间的空间变换。Li 等[29]在三维脑结构 MRI 图像集上进行实验,通过 FCN 的前馈计算,经过训练的 FCN 可以对新图像进行配准。
2 挑战与对策
2.1 医学图像样本的挑战与对策
2.1.1 样本问题
深度学习用于医学图像的分析,在样本方面有 3 个困难:① 样本量小,由于隐私等问题很难共享样本;② 需要专家标注样本,耗时、成本高;③ 样本不均衡,病理样本少。
针对这些问题,现有三种对策。针对有监督的深度学习中样本不足的情况,研究者们提出了样本增强的方法和迁移学习的方法。另外,研究者们还提出了无监督学习的方法。
2.1.2 样本增强
针对样本增强,Chen 等[30]总结了 6 类数据增强方法,如下所述。
(1)利用大量无标记数据的流信息学习一个标注样本的学习模型(one-shot)。
(3)借用相关类别的例子或语义词汇表来扩充训练集[33]。
(4)合成新的标注训练数据。Chen 等[30]提出了一种新的双三网自动编码器网络,用于特征增强。编码器将深层 CNN 的多层视觉特性投射到语义空间中。因为语义空间上有更丰富的信息,可以在语义空间上做数据扩充,通过译码器将增强后的实例表示再映射回图像特征空间中得到更多的扩充样例。
(5)使用生成对抗性网络(generative adversarial networks,GAN)生成新示例[34-36]。
(6)用属性引导增强(attribute-guided augmentation,AGA)方法,使得可根据期望值或强度合成样本。Dixit 等[37]提出的 AGA 利用小样本学习方法(few-shot learning)进行数据增强,主要针对三维数据,把图像投影到一个属性空间,生成人工样本来扩展给定的训练数据集,它是在特征空间而非图像空间中进行数据增强。
2.1.3 迁移学习
针对样本不足的情况,还有一个实验验证了的有效方法是迁移学习(transfer learning),即可以采用迁移学习加上微调(fine tuning)来解决医疗图像数据集的困难,本文课题组据此进行了这方面的研究。首先研究了如何在一个分层的方式下,微调预训练的 CNN 可以获得良好的图像处理性能[38]。本课题组使用预训练的 CNN 作为特征提取器,通过使用含有大量标签数据的自然图像库(名为“Imagenet”)对 CNN 进行预训练,将预训练后的 CNN 参数作为监督学习网络的初始值,使用有限的专业图像标注数据集对预训练后的 CNN 中可学习的参数进行调优。在迁移学习训练过程中,对网络的后一半层数进行微调,与对整个网络进行微调相比,它们能够达到几乎相同的精度,但收敛速度更快。Shin 等[39]也研究了迁移学习结合微调的方法,说明了通过 ImageNet 自然图像库预训练的网络的微调何时有用和为什么是有用,他们的方法是除最后一个层外,其他所有层都以比默认学习速率小 10 倍的学习速率进行微调,最终结果通过胸腹淋巴结检测进行了验证,但如何确定不同层次的最佳学习速率仍具有挑战性。
2.1.4 无监督学习
医学样本的标签成本高且难以获得,相对而言,获取大量未标记的医学数据容易得多。考虑到医学图像的独特性和标注的高成本,无监督学习是一个重要的研究方向。迄今为止,有监督模型多比无监督模型表现得要好,无监督学习的研究成果也相对少,但人们非常希望开发一种无监督的、端到端的 CNN 医学图像配准框架。
2015 年,Jaderberg 等[40]提出了一种新的学习模块——空间变换(spatial transformer,ST),让网络明确地利用了数据的空间信息。这种可导的模块可以插入到现有的 CNN 中,使 CNN 在不需要额外训练情况下,对平移、尺度变换、旋转和常见的扭曲具备不变性,能够在不需要监督标签的情况下执行图像对齐。在后续的研究中,利用 ST 模块和其他网络的组合,在无监督的医学图像配准上取得了进展。de Vos 等[41]提出了一种可变形图像配准的深度学习网络(作者命名为“DIRNet”),DIRNet 由 CNN 回归器、空间变换器和重放器组成。DIRNet 对输入图像对之间的相似性度量进行无监督优化,其对心脏 MRI 图像的配准精度与传统的可变形图像配准方法相同,具有较短的执行时间。
前述 de Vos 等[41]的方法美中不足的是在有限的卷集上,只支持小的转换。为了适用处理大变形,最近 Balakrishnan 等[42]结合 CNN 与 ST,做了进一步改进。他们将配准定义为一个参数函数,使用一个 CNN 对该函数建模,并利用空间变换层从另一幅图像中重建图像,同时在配准域上施加平滑约束。这种方法不仅是无监督的不需要大量的标注数据,而且大大加快了速度。
除了结合 ST 模块,Shan 等[1]提出的方法将传统的图像配准算法移植到端对端的 CNN 框架中,同时保持图像配准问题的无监督性质。用于二维肝 CT/MRI、脑 CT/MRI 的医学图像配准,配准速度比传统方法快 100 倍,并且该方法还可以扩展到肝脏和大脑以外的其他器官,如肾、肺和心脏。
此外,2014 年 GAN 问世。GAN 的网络结构是具有颠覆性的,它在同一时间创建一个生成网络和一个判别网络,网络可以接受端到端的训练,并以完全不受监督的方式学习有代表性的特征,这为医学图像的无监督配准提供了一个技术解决的研究方向。
2.2 多模态医学图像配准的挑战与对策
除了单模态图像配准,由于不同成像方式下组织形态的高度变异性,临床上还需要多模态医学图像配准,将成像技术相互取长补短。在基于灰度的多模态图像配准方法中,相关像素的灰度值之间的关联比较复杂。Alam 等[12]指出互信息是多模态图像配准的一种标准相似性度量,但当图像含有局部强度变化时,其性能下降,而且互信息只考虑图像中的强度信息,忽略了空间信息。在基于特征的配准方法中,多模态图像配准取得了一些成绩,如 Chen 等[17]实现了对多个椎体(L2~L4)的二维超声和三维 CT 图像的配准;Miao 等[23]实现了针对二维 X 光图像和三维 CT 医学图像的配准;Cheng 等[18]提出了两种类型的堆叠自动编码器来评估头部 CT 与 MRI 图像的相似性。但是,多模态图像中相同特征和可变特征的提取仍然是一个重要的研究领域。在临床的图像引导手术中,将不同类型医学图像的对比信息关联起来是多模态图像配准中的一项具有挑战性的任务。在图像引导手术中,采用不同的成像方式对患者的器官进行多次扫描,给识别不同成像系统的患者位置和方位造成了困难,因此有必要开发出更先进的配准方法,以便于消除患者定位上的差异[12]。
3 结论
影像引导手术和放射治疗对医学图像配准的研究提出了强烈的临床需求,最近几年深度学习在医学图像配准方面的应用也发展很快,本文分类阐述了基于深度学习的医学图像配准的研究进展,进一步分析了存在的挑战和应对的对策。无论是有监督学习还是无监督学习,深度学习在医学图像配准方面的研究都还有广阔的空间。在临床中,针对术前术中医学图像配准的无监督学习的研究十分具有现实意义。在今后,除了无监督的医学图像配准这个重要的方向外,还有以下有意义的研究方向。
(1)自动标注数据集。在医学图像配准中,通过自动的方法来标注数据是快速的,但取决于深度学习方法。如 Chen 等[30]提出利用每个类的语义直接合成实例特征。Uzunova 等[26]提出的基于 CNN 的深度学习方法,从少数样本图像中生成一组具有已知对应关系的训练图像对,可用于合成大量的具有标注的医学图像配准训练数据。在自动标注的过程中,尚有待解决的问题,比如如何运用深度学习方法高效地标注数据集,减少标记噪声和标记成本等。
(2)临床应用。当前的研究要走向临床应用,还有很多尚待解决的问题,虽然深度学习加快了医学图像配准的计算速度,为实时的配准提供了可能性。但临床数据总是受到噪声、运动和均匀性等强度一致性的影响,影像引导手术中存在组织或小物体遮挡的现象,功能图像有可能是低质量的,这些都为医学图像配准带来挑战。在外科手术指导系统中,需要解决这些挑战,更为准确地对图像中的点进行配准和转换,提高目标配准误差(target registration error,TRE)的正确概率,特别是在非刚性配准的情况下。此外,在手术中,由于组织的变形、患者和设备的移位等,在进行纠正术前图像和术中图像的配准时,需要不中断手术而进行自动配准,所以自动配准,尤其是多模态的自动配准,是一个有临床意义的研究方向。自动图像配准方法的精度在很大程度上取决于算法的精度和优化,正确选择三维地标、准确提取多模态图像中相同特征等,都是自动配准面临的挑战[12]。
利益冲突声明:本文全体作者均声明不存在利益冲突。