主动脉夹层分割中存在主动脉夹层与周围器官和血管的对比度低、夹层形态差异大以及背景噪声大等问题。针对以上问题,本文提出一种基于强化学习的B型主动脉夹层定位方法,借助两阶段分割模型,使用深度强化学习执行第一阶段的主动脉定位任务,保证定位目标的完整性;在第二阶段,使用第一阶段的粗分割结果作为输入,得到精细的分割结果。为了提高一阶段分割结果的召回率(Recall),使定位结果更完整地包含分割目标,本文设计了基于Recall变化方向的强化学习奖励函数;同时,将定位窗口与视野窗口分离,减少分割目标缺失的情况。本文选取Unet、TransUnet、SwinUnet以及MT-Unet作为基准分割模型,通过实验验证,本文的两阶段分割流程结果中多数指标均优于基准结果,其中Dice指标分别提高1.34%、0.89%、27.66%和7.37%。综上,将本文的B型夹层定位方法加入分割流程,最终的分割精度较基准模型结果有所提升,对于分割效果较差的模型提升效果更显著。
引用本文: 曾安, 林先扬, 赵靖亮, 潘丹, 杨宝瑶, 刘鑫. 基于强化学习的B型主动脉夹层定位方法. 生物医学工程学杂志, 2024, 41(5): 878-885. doi: 10.7507/1001-5515.202309047 复制
0 引言
主动脉夹层(aortic dissection,AD)是一种危险的心血管疾病[1-2],是由内膜撕裂或者腔内出血和血肿形成引起的内膜穿孔,使主动脉腔内的血液从主动脉内膜撕裂处进入主动脉中膜,从而形成主动脉壁的真假两腔分离的状态。Stanford分型根据是否累及升主动脉,将夹层分为AB两类,其中所有未累及升主动脉的夹层为B型主动脉夹层。在主动脉夹层的诊断和治疗中,手动分割主动脉夹层区域是一项繁琐、费时的任务,人的主观性会影响诊断准确性和治疗效果。即使是在同一部位,主动脉撕裂内膜的方向、主动脉横截面的形状位置以及主动脉弓的形态学属性均有一定差异,再加上主动脉内部的血液流速和血管壁的厚度等因素的影响,使得主动脉夹层图像分割[3]具有挑战性。
基于主动脉夹层的传统分割方法,已经提出了多种策略,包括Hough变换法[4]、基于空间连续性先验模型法[5]、多尺度小波分析法[6]以及基于图像去噪的方法[7]等。这些方法在小规模数据集上展现了良好的分割效果,然而,它们都依赖于手动选择初始特征或者过多的人工处理,从而限制了其准确性和扩展性。因此,需要进一步研究和发展更准确、自动化且可靠的主动脉夹层分割方法。目前深度学习技术是应用于医学图像分割的主流方法。
主动脉图像存在各种噪声和伪影,如果直接作为深度学习网络的输入,网络需要分辨非分割目标信息,分散了对分割目标的专注学习,可能会减少分割细节的精确度。对于一些鲁棒性较差的分割网络,影响更为显著。针对以上问题,Zhu等[8]提出了由粗到细的两阶段分割模型,两阶段方法可以有效减少输入图像的噪声和干扰信号。文献[8]使用深度学习提取感兴趣区域,文献[9]在此基础上增加了形态学处理方法,但这些方法在粗分割阶段缺乏有效的纠错机制,使得模型的定位结果往往不可靠,会影响最终的分割效果。
而深度强化学习通过自主学习和决策,可以适应各种复杂环境和任务、处理高维数据,可以解决基于深度学习带来的粗分割问题。Man等[10]在粗分割阶段使用强化学习实现自主定位,提高了分割目标的定位效果。但文献[10]使用基于自然图像预训练的VGG[11]网络进行特征提取,这种方式不能很好地利用医学图像特有的特征。同时它的奖励函数使用了强化学习在目标检测应用中的常规奖励函数[12],不能很好地适配粗分割阶段的任务目标,定位结果存在一定的目标缺失情况,Recall尚有较大的提升空间。针对上述问题,受文献[10]的启发,本文提出针对B型主动脉夹层图像的两阶段分割流程。首先,为了丰富医学切片图像的特征信息,本文将基于Resnet[13]的修改网络作为特征提取网络,对主动脉切片数据进行特征提取;其次,使用深度强化学习训练自适应环境定位的智能体,减少主动脉夹层形态差异带来的影响,保证定位窗口尽可能包含分割目标的同时,减小窗口的尺寸,去除更多的冗余信息;最后,选取Unet[14]、TransUnet[15]、SwinUnet[16]、MT-Unet[17]作为细分割阶段模型,将经过粗分割的切片结果集合作为基准分割网络的输入,得到最终的分割结果,进一步提高基准分割网络的分割精度。
1 方法
1.1 整体流程
本文提出基于强化学习的B型主动脉夹层两阶段分割方法,整体流程如图1所示。本方法可分为特征提取、粗分割和细分割三个阶段。首先,对主动脉夹层数据进行特征提取,获取医学图像相关特征,与原图像组合得到强化学习网络的初始输入。其次,使用强化学习探索每个样本的粗分割定位序列,通过奖励信号驱动网络更新,将训练结束的强化学习网络应用于所有主动脉夹层数据得到粗分割结果集合。最后,将粗分割结果作为分割网络的输入得到细分割结果。

1.2 强化学习介绍
强化学习[18]是机器学习中的一种重要分支,强化学习的核心要素是状态、动作和奖励。智能体通过与环境的交互,根据采取不同行为带来的即时奖励进行状态转移,从中学习到适用当前环境与对应目标任务的最佳行为策略,与深度学习的结合使强化学习能够处理复杂的高维状态空间。深度Q网络(deep Q-network,DQN)[19]是常用的深度强化学习模型之一,DQN通过Bellman方程 [20]预测动作价值Q,对动作选择策略进行迭代更新。随着强化学习的发展,产生了多种提高DQN性能的技术,例如Double DQN[21]、Dueling DQN[22]和循环DQN[23]等。
DQN普遍存在估计Q值过高的问题,而Double DQN可以有效缓解DQN的估计偏差。Double DQN使用两个结构相同的神经网络:评估网络和目标网络
,前者用于预测最佳的动作,后者用于评估所选动作的Q值。目标Q值的计算方法以及Double DQN的损失函数如式(1)、式(2)所示。
![]() |
![]() |
1.3 特征提取模块
特征提取网络结构如图2所示。由于单通道的医学切片特征信息较少,直接使用原始切片训练强化学习网络容易造成过拟合,常见做法是将切片与相邻切片组合作为训练样本,这种方式虽然丰富了切片的信息,但同时加入了更多的冗余信息。为了丰富切片的特征信息,同时减少引入更多的冗余信息,影响网络的训练,本文针对B型主动脉夹层数据从零训练特征提取网络。特征提取网络结构参考文献[24],网络由若干个残差块以及卷积层组成,将多个中间残差块的结果进行拼接,获取不同维度的特征信息,最终输出单通道的特征图像。在训练过程中,将网络的输出结果与下采样后的B型夹层掩码进行展平匹配,使它能够专注B型主动脉夹层的关键特征,生成凸显夹层特征的特征图像,最后将原图像与特征图像组合作为强化学习网络的输入。特征图像能够为强化学习网络提供更多的目标特征信息,同时减少冗余信息的引入,而原图像的作用是补充特征图像中可能丢失的其他关键特征信息,进一步提高粗分割阶段的定位准确性。

1.4 粗分割模块
粗分割模块的具体结构如图3所示。本文将粗分割阶段的定位问题转换为马尔可夫决策过程(Markov decision process,MDP),定义粗分割任务下智能体的状态、动作以及奖励要素。模块首先将切片状态输入停止网络,判断定位序列是否结束;如果选择继续执行,则重新将状态输入预测网络进行动作决策,之后在初始状态图像上执行相应动作的裁剪操作,实现一次状态转移,循环执行多次直至序列结束。

1.4.1 深度强化学习模型
为了实现最佳定位策略,本文采用Double DQN作为粗分割阶段的定位算法,强化学习网络使用基于残差块的网络结构,由若干个残差块以及全连接层组成,整体结构如图4所示。将记忆动作序列与卷积层结果拼接,作为全连接层的输入,最后输出多个动作的估计Q值。

1.4.2 状态设计
本文的强化学习状态由当前定位窗口内容与记忆动作向量组成。首先通过特征提取网络得到夹层切片的特征图像,然后组合原始切片与两个相同特征图像得到一个3通道的图像数据,作为切片的初始状态。同时增加记忆向量作为预测网络输入的一部分,记忆向量是一个二进制向量,记录单次状态转移之前最近的10次历史动作。
1.4.3 窗口分离
对于定位任务,常见的状态转移方法是使用变换后的新窗口对初始状态进行裁剪,将窗口内容作为新的状态数据,其余部分置0。但这种裁剪方式存在以下问题: ① 当定位窗口的尺寸逐渐减小,通过窗口裁剪得到新状态的有效内容也会逐步减少,对于小目标定位任务,该问题更加突出。为了解决在后序阶段状态的有效数据占比小的问题,在状态转移的过程中,本文只对状态数据的其中一个特征图像进行窗口裁剪,保持原始切片和另一个特征切片内容不变。② 当窗口只包含少部分目标内容,该裁剪方式会使状态丢失大部分目标信息。智能体难以从少量的特征信息中定位目标的方向位置,增加了完全丢失目标的可能性,进而定位失败。为了避免发生窗口严重缺失的问题,本文将单一窗口分离出定位窗口和视野窗口。视野窗口是在定位窗口的基础上增加若干个像素宽度得到的新窗口,在状态转移的过程中使用视野窗口的内容作为状态数据,但在评价定位效果时使用定位窗口。当定位窗口已经发生缺失,视野窗口的存在可以弥补一部分分割目标的特征数据,进而减少定位失败的情况。
在定位窗口的最后调整阶段,此时窗口的宽高长度较短,窗口执行动作后的变化幅度小,重复出现相似程度较高状态的可能性较大,即窗口容易出现在曾经定位过的位置。对于相似的状态,智能体可能会提供同样的动作建议,导致之后的动作序列陷入某种搜索轨迹循环。循环序列会占用有限的执行步数,在一定程度上会影响最后的定位结果。为了避免重复出现相似状态,本文对视野窗口的尺寸进行随机化设置,在一定范围内随机选取视野窗口的扩张大小,尽可能增大每个状态之间的差异程度。
1.4.4 动作设计
本文的强化网络动作集合由8个窗口的变换操作和一个停止操作组成。如图5所示,变换操作分为4个移动动作和4个缩放动作。文献[10]采取的缩放操作始终保持窗口的形状为正方形,对于一些长宽比例差异较大的主动脉夹层数据,该方案会引入较多的冗余信息,不适用于目标形态不统一的任务,因此本文采用自由程度更高的缩放操作。本文的缩放操作可以对包围框的不同方向分别进行缩放,同时在缩放时保持窗口的中心位置不变,有助于进一步缩小定位范围。缩放和移动动作的初始变换比例都是对应方向上窗口边长的1/5。为了使窗口在最后的调整阶段能进行更细微的调整,在执行一定步数之后会进一步减小变换比例。当智能体选择了停止动作或者搜索步数达到预设的最大值,表示一个定位序列的结束。

1.4.5 奖励函数设计
即时奖励用于评估智能体选择的动作好坏,智能体的目标就是最大化累计奖励。对于目标检测问题,一般采用的评估指标是IoU,IoU是用于衡量两个矩形框重合程度的重要指标。在粗分割阶段需要特别注重Recall指标,Recall描述了窗口内包含目标对象的完整程度。其具体计算公式如式(3)、式(4)所示,其中g表示分割目标的最小包围框,w表示定位窗口。
![]() |
![]() |
式(5)和式(6)分别表示前后状态的Recall和IoU指标变化。基于强化学习的目标检测问题[12]一般采取如式(7)所示的单步奖励函数,其中表示状态s执行动作
得到的即时奖励,
表示除停止动作以外的变换动作,w表示执行动作前的窗口,
表示执行动作后的窗口。
![]() |
![]() |
![]() |
在该奖励函数的驱动下,即使定位窗口缺失一部分目标,智能体也会优先选择增大IoU的动作。但由于IoU和Recall的变化方向不完全一致,因此可能会出现IoU增加而Recall不变甚至下降的情况,因此使用该奖励函数难以保证定位窗口较完整地包含分割目标。针对粗分割任务,需要优先保证相邻状态的Recall保持递增或维持最大值,以上两种情况的奖励分数应该最大。本文设计的奖励函数如式(8)所示。
![]() |
本文的奖励函数分为两部分,常规动作奖励以及移动惩罚项。常规动作奖励如式(9)所示,整体的取值范围为[−2,2],该奖励函数在优先考虑Recall变化的情况下根据IoU的变化给予相应的分值。满足的奖励为
+ 1 ,其中同时增加IoU与Recall的动作奖励最大;
的奖励函数为
,为了提高维持完整包围目标的动作优先级,如果此时
,本文额外将奖励结果翻倍,即奖励为
;其他条件不符合粗分割任务的要求,因此直接提供负值奖励。
![]() |
移动惩罚项用于限制执行移动动作的次数,如式(10)所示。在定位过程中,大部分获取奖励的动作是缩放,移动只有发生缺失时才可能提供奖励,多数情况奖励为0,更多的作用是缩小窗口与目标的中心距离。窗口连续执行过多的移动动作,一方面会增加无效动作的占比,另一方面容易产生循环动作序列,使窗口在有限步数内不能准确地定位目标。因此本文增加了一个惩罚项,当移动动作的连续执行次数达到5次及以上时,给予一个较大的负值奖励。
![]() |
本文的停止奖励采取常规的阈值奖励函数,对窗口的IoU和Recall指标进行阈值判断,如式(11)所示。执行停止动作,若当前窗口w与目标包围框g的IoU和Recall均大于各自的阈值
和
,则奖励为正值,否则为负值。
![]() |
1.4.6 细分割模块
将B型主动脉夹层数据经过粗分割模块处理,获取每个切片的目标包围框,得到所有切片的粗分割结果。本文选取Unet[14]、TransUnet[15]、SwinUnet[16]、MT-Unet[17]作为细分割阶段模型,将粗分割结果集合作为输入,得到分割精度更高的结果图像。
2 实验设计与分析
2.1 数据集
本文的实验数据来自广东省人民医院公开的主动脉夹层CT血管造影(computed tomography angiography,CTA)图像[25],原始数据包含100个B型主动脉夹层的三维数据样例,其中片间距为0.75 mm,体素大小为0.25 mm×0.25 mm×0.25 mm。该数据集包含3种标注数据,分别对应主动脉真腔、假腔以及假腔血栓。本文实验只使用假腔标签,并从横断面方向筛选出包含B型夹层的切片数据,共计26 306张,最后进行归一化处理。实验数据根据样例进行划分,训练集和测试集的比例为7∶3。
2.2 参数设置与评价指标
强化学习网络使用Adam优化器进行参数更新,训练batch大小为100,学习率为1 × 10−5,训练epoch设置为4,评估网络的参数每100次更新后分配给目标网络。特征网络和分割网络的batch为20,学习率为1 × 10−4,训练epoch为30。为了让智能体在训练早期尽可能探索更多种情况的搜索序列,本文在训练过程中采用ε-greedy[26]搜索策略,智能体随机选择动作的概率是ε,根据最大Q值选择动作的概率为1-ε,其初始值为0.5,随着迭代次数的增加,ε会逐渐减少。智能体寻找目标的最大步长设置为40,回放经验池的大小为50 000,折扣因子γ为0.9。停止奖励中的为0.27,
为0.97。定位窗口的初始边长为图像边长的3/4。针对窗口越界问题,本文采取的方法是:当出现越界情况时,重新随机选择动作,而不是进行边界裁剪。
实验采用IoU、Dice相似系数、精确率(Precision)以及分类任务的召回率(Recall2,与包围框的Recall区分)四种指标衡量分割模型的性能,IoU的公式如式(3)所示,其他指标的公式如下所示。
![]() |
![]() |
![]() |
式(13)、式(14)中的TP、FP和FN分别代表真阳性数量、假阳性数量和假阴性数量。
2.3 实验结果与分析
2.3.1 B型主动脉夹层定位过程
图6展示了一个样本的定位序列。白色标记为目标对象,红色包围框为每一步的定位结果。每一步动作在保持高Recall指标的前提下,尽可能缩小包围框的尺寸。最终,窗口定位到待分割目标位置,除去其他冗余内容。

a-i. 定位过程的窗口变换示意图
Figure6. Localization process of type B aortic dissectiona-i. window transformation diagram of the localization process
2.3.2 定位策略对比
采用不同定位策略的结果如表1所示。可以看出基于R1的IoU指标总是高于R2,而基于R2的Recall指标更高,这是奖励函数驱动的结果。R1促使智能体朝着提高IoU的方向行动,而本文的R2奖励优先考虑Recall。加入窗口分离可以进一步提升Recall,窗口分离可以有效避免产生循环序列,一定程度上减少智能体在定位目标过程中的无效步数。由于粗分割阶段对结果的完整性要求更高,因此在后续的分割模型对比中,本文选择Recall表现最高的定位策略作为B型夹层的定位方法;而对于目标检测等仅对IoU有高要求的任务可以选择R1对应的奖励函数。

2.3.3 分割方法对比
为了验证本文方法的有效性,将本文提出的分割流程应用于多种分割模型,与对应的基准分割结果进行对比。所有的比较实验均在本文的数据集上进行,采用相同的数据划分方式以及参数设置。该实验使用的分割模型如下:
(1)Unet[14]是经典的医学分割模型,通过对称的编码器-解码器的U型网络架构以及跳跃式连接将编码器和解码器中对应的特征图相连接,从而引入更多的上下文信息。
(2)TransUnet[15]是将Transformer和Unet结合的分割模型,通过Transformer的自注意力机制来提取图像特征,从而捕捉到更全局的语义信息,在一些复杂场景表现更加准确。
(3)SwinUnet[16]在Unet的基础上,将所有的卷积block换成了Swin-Transformer block。相比Transformer,Swin-Transformer采取了分层的方式组织注意力机制,提高了模型的感受野和特征表达能力。
(4)MT-Unet[17]将Unet的部分内容替换为新的混合Transformer模块(mixed transformer module,MTM),MTM首先通过局部-全局高斯加权自注意(local-global Gaussian-weighted self-attention,LGG-SA)有效地计算窗口内部相似度,对不同粒度的短期和长期依赖进行建模。然后,通过外部注意挖掘数据样本之间的联系。
表2展示了不同分割方法的分割结果。与直接使用分割模型相比,使用本文方法的分割结果在各项指标上均有提升,其中Dice指标分别提高了1.34%、0.89%、27.66%和7.37%。对于基础分割效果较好的分割模型,如Unet、TransUnet以及MT-Unet,分割精度仍有一定的提升,提升空间较小的原因是这些模型受背景因素的影响较小,因此本文方法的提升上限较低;而对于基础分割效果较差的模型,如SwinUnet,能够显著提高分割精度。使用本文方法可以去除分割目标以外的大部分冗余信息,将分割模型的关注点集中在有效范围内,增大目标与背景间的特征差异,因此对于容易受到背景干扰的数据集或鲁棒性较差的分割模型有一定的辅助作用;同时提供一种可以进一步提高模型精度上限的参考方法。

3 结论
针对主动脉夹层分割问题,本文提出了基于Double DQN的B型主动脉夹层目标定位方法。本文对常规定位奖励函数进行分析与讨论,指出它们在粗分割应用中存在的缺点与不足,并设计出适合该问题的奖励函数,同时提出能有效避免发生目标缺失的窗口分离机制。实验表明,本文提出的奖励函数能有效地指导智能体实现主动脉夹层的定位任务,在优先保证高Recall的同时,尽可能缩小窗口的大小,除去大部分的冗余信息,在一定程度上进一步提高了分割网络模型的分割精度,实验结果证明了该项改进的有效性。此外本文的方法虽然提高了目标的完整性,但定位窗口对目标窗口的靠拢程度仍有一定的提升空间。在今后的研究中,将研究可以平衡二者的奖励函数,保持原本完整性的同时进一步减少数据冗余;同时尝试应用于其他主动脉夹层分型数据,以验证该方法在其他夹层类型的可行性。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:林先扬主要负责数据记录与分析、算法程序与设计以及论文编写,曾安、赵靖亮、潘丹、杨宝瑶主要负责实验流程、协调沟通、计划安排、提供实验指导以及论文审阅修订,刘鑫主要负责论文审阅修订。
0 引言
主动脉夹层(aortic dissection,AD)是一种危险的心血管疾病[1-2],是由内膜撕裂或者腔内出血和血肿形成引起的内膜穿孔,使主动脉腔内的血液从主动脉内膜撕裂处进入主动脉中膜,从而形成主动脉壁的真假两腔分离的状态。Stanford分型根据是否累及升主动脉,将夹层分为AB两类,其中所有未累及升主动脉的夹层为B型主动脉夹层。在主动脉夹层的诊断和治疗中,手动分割主动脉夹层区域是一项繁琐、费时的任务,人的主观性会影响诊断准确性和治疗效果。即使是在同一部位,主动脉撕裂内膜的方向、主动脉横截面的形状位置以及主动脉弓的形态学属性均有一定差异,再加上主动脉内部的血液流速和血管壁的厚度等因素的影响,使得主动脉夹层图像分割[3]具有挑战性。
基于主动脉夹层的传统分割方法,已经提出了多种策略,包括Hough变换法[4]、基于空间连续性先验模型法[5]、多尺度小波分析法[6]以及基于图像去噪的方法[7]等。这些方法在小规模数据集上展现了良好的分割效果,然而,它们都依赖于手动选择初始特征或者过多的人工处理,从而限制了其准确性和扩展性。因此,需要进一步研究和发展更准确、自动化且可靠的主动脉夹层分割方法。目前深度学习技术是应用于医学图像分割的主流方法。
主动脉图像存在各种噪声和伪影,如果直接作为深度学习网络的输入,网络需要分辨非分割目标信息,分散了对分割目标的专注学习,可能会减少分割细节的精确度。对于一些鲁棒性较差的分割网络,影响更为显著。针对以上问题,Zhu等[8]提出了由粗到细的两阶段分割模型,两阶段方法可以有效减少输入图像的噪声和干扰信号。文献[8]使用深度学习提取感兴趣区域,文献[9]在此基础上增加了形态学处理方法,但这些方法在粗分割阶段缺乏有效的纠错机制,使得模型的定位结果往往不可靠,会影响最终的分割效果。
而深度强化学习通过自主学习和决策,可以适应各种复杂环境和任务、处理高维数据,可以解决基于深度学习带来的粗分割问题。Man等[10]在粗分割阶段使用强化学习实现自主定位,提高了分割目标的定位效果。但文献[10]使用基于自然图像预训练的VGG[11]网络进行特征提取,这种方式不能很好地利用医学图像特有的特征。同时它的奖励函数使用了强化学习在目标检测应用中的常规奖励函数[12],不能很好地适配粗分割阶段的任务目标,定位结果存在一定的目标缺失情况,Recall尚有较大的提升空间。针对上述问题,受文献[10]的启发,本文提出针对B型主动脉夹层图像的两阶段分割流程。首先,为了丰富医学切片图像的特征信息,本文将基于Resnet[13]的修改网络作为特征提取网络,对主动脉切片数据进行特征提取;其次,使用深度强化学习训练自适应环境定位的智能体,减少主动脉夹层形态差异带来的影响,保证定位窗口尽可能包含分割目标的同时,减小窗口的尺寸,去除更多的冗余信息;最后,选取Unet[14]、TransUnet[15]、SwinUnet[16]、MT-Unet[17]作为细分割阶段模型,将经过粗分割的切片结果集合作为基准分割网络的输入,得到最终的分割结果,进一步提高基准分割网络的分割精度。
1 方法
1.1 整体流程
本文提出基于强化学习的B型主动脉夹层两阶段分割方法,整体流程如图1所示。本方法可分为特征提取、粗分割和细分割三个阶段。首先,对主动脉夹层数据进行特征提取,获取医学图像相关特征,与原图像组合得到强化学习网络的初始输入。其次,使用强化学习探索每个样本的粗分割定位序列,通过奖励信号驱动网络更新,将训练结束的强化学习网络应用于所有主动脉夹层数据得到粗分割结果集合。最后,将粗分割结果作为分割网络的输入得到细分割结果。

1.2 强化学习介绍
强化学习[18]是机器学习中的一种重要分支,强化学习的核心要素是状态、动作和奖励。智能体通过与环境的交互,根据采取不同行为带来的即时奖励进行状态转移,从中学习到适用当前环境与对应目标任务的最佳行为策略,与深度学习的结合使强化学习能够处理复杂的高维状态空间。深度Q网络(deep Q-network,DQN)[19]是常用的深度强化学习模型之一,DQN通过Bellman方程 [20]预测动作价值Q,对动作选择策略进行迭代更新。随着强化学习的发展,产生了多种提高DQN性能的技术,例如Double DQN[21]、Dueling DQN[22]和循环DQN[23]等。
DQN普遍存在估计Q值过高的问题,而Double DQN可以有效缓解DQN的估计偏差。Double DQN使用两个结构相同的神经网络:评估网络和目标网络
,前者用于预测最佳的动作,后者用于评估所选动作的Q值。目标Q值的计算方法以及Double DQN的损失函数如式(1)、式(2)所示。
![]() |
![]() |
1.3 特征提取模块
特征提取网络结构如图2所示。由于单通道的医学切片特征信息较少,直接使用原始切片训练强化学习网络容易造成过拟合,常见做法是将切片与相邻切片组合作为训练样本,这种方式虽然丰富了切片的信息,但同时加入了更多的冗余信息。为了丰富切片的特征信息,同时减少引入更多的冗余信息,影响网络的训练,本文针对B型主动脉夹层数据从零训练特征提取网络。特征提取网络结构参考文献[24],网络由若干个残差块以及卷积层组成,将多个中间残差块的结果进行拼接,获取不同维度的特征信息,最终输出单通道的特征图像。在训练过程中,将网络的输出结果与下采样后的B型夹层掩码进行展平匹配,使它能够专注B型主动脉夹层的关键特征,生成凸显夹层特征的特征图像,最后将原图像与特征图像组合作为强化学习网络的输入。特征图像能够为强化学习网络提供更多的目标特征信息,同时减少冗余信息的引入,而原图像的作用是补充特征图像中可能丢失的其他关键特征信息,进一步提高粗分割阶段的定位准确性。

1.4 粗分割模块
粗分割模块的具体结构如图3所示。本文将粗分割阶段的定位问题转换为马尔可夫决策过程(Markov decision process,MDP),定义粗分割任务下智能体的状态、动作以及奖励要素。模块首先将切片状态输入停止网络,判断定位序列是否结束;如果选择继续执行,则重新将状态输入预测网络进行动作决策,之后在初始状态图像上执行相应动作的裁剪操作,实现一次状态转移,循环执行多次直至序列结束。

1.4.1 深度强化学习模型
为了实现最佳定位策略,本文采用Double DQN作为粗分割阶段的定位算法,强化学习网络使用基于残差块的网络结构,由若干个残差块以及全连接层组成,整体结构如图4所示。将记忆动作序列与卷积层结果拼接,作为全连接层的输入,最后输出多个动作的估计Q值。

1.4.2 状态设计
本文的强化学习状态由当前定位窗口内容与记忆动作向量组成。首先通过特征提取网络得到夹层切片的特征图像,然后组合原始切片与两个相同特征图像得到一个3通道的图像数据,作为切片的初始状态。同时增加记忆向量作为预测网络输入的一部分,记忆向量是一个二进制向量,记录单次状态转移之前最近的10次历史动作。
1.4.3 窗口分离
对于定位任务,常见的状态转移方法是使用变换后的新窗口对初始状态进行裁剪,将窗口内容作为新的状态数据,其余部分置0。但这种裁剪方式存在以下问题: ① 当定位窗口的尺寸逐渐减小,通过窗口裁剪得到新状态的有效内容也会逐步减少,对于小目标定位任务,该问题更加突出。为了解决在后序阶段状态的有效数据占比小的问题,在状态转移的过程中,本文只对状态数据的其中一个特征图像进行窗口裁剪,保持原始切片和另一个特征切片内容不变。② 当窗口只包含少部分目标内容,该裁剪方式会使状态丢失大部分目标信息。智能体难以从少量的特征信息中定位目标的方向位置,增加了完全丢失目标的可能性,进而定位失败。为了避免发生窗口严重缺失的问题,本文将单一窗口分离出定位窗口和视野窗口。视野窗口是在定位窗口的基础上增加若干个像素宽度得到的新窗口,在状态转移的过程中使用视野窗口的内容作为状态数据,但在评价定位效果时使用定位窗口。当定位窗口已经发生缺失,视野窗口的存在可以弥补一部分分割目标的特征数据,进而减少定位失败的情况。
在定位窗口的最后调整阶段,此时窗口的宽高长度较短,窗口执行动作后的变化幅度小,重复出现相似程度较高状态的可能性较大,即窗口容易出现在曾经定位过的位置。对于相似的状态,智能体可能会提供同样的动作建议,导致之后的动作序列陷入某种搜索轨迹循环。循环序列会占用有限的执行步数,在一定程度上会影响最后的定位结果。为了避免重复出现相似状态,本文对视野窗口的尺寸进行随机化设置,在一定范围内随机选取视野窗口的扩张大小,尽可能增大每个状态之间的差异程度。
1.4.4 动作设计
本文的强化网络动作集合由8个窗口的变换操作和一个停止操作组成。如图5所示,变换操作分为4个移动动作和4个缩放动作。文献[10]采取的缩放操作始终保持窗口的形状为正方形,对于一些长宽比例差异较大的主动脉夹层数据,该方案会引入较多的冗余信息,不适用于目标形态不统一的任务,因此本文采用自由程度更高的缩放操作。本文的缩放操作可以对包围框的不同方向分别进行缩放,同时在缩放时保持窗口的中心位置不变,有助于进一步缩小定位范围。缩放和移动动作的初始变换比例都是对应方向上窗口边长的1/5。为了使窗口在最后的调整阶段能进行更细微的调整,在执行一定步数之后会进一步减小变换比例。当智能体选择了停止动作或者搜索步数达到预设的最大值,表示一个定位序列的结束。

1.4.5 奖励函数设计
即时奖励用于评估智能体选择的动作好坏,智能体的目标就是最大化累计奖励。对于目标检测问题,一般采用的评估指标是IoU,IoU是用于衡量两个矩形框重合程度的重要指标。在粗分割阶段需要特别注重Recall指标,Recall描述了窗口内包含目标对象的完整程度。其具体计算公式如式(3)、式(4)所示,其中g表示分割目标的最小包围框,w表示定位窗口。
![]() |
![]() |
式(5)和式(6)分别表示前后状态的Recall和IoU指标变化。基于强化学习的目标检测问题[12]一般采取如式(7)所示的单步奖励函数,其中表示状态s执行动作
得到的即时奖励,
表示除停止动作以外的变换动作,w表示执行动作前的窗口,
表示执行动作后的窗口。
![]() |
![]() |
![]() |
在该奖励函数的驱动下,即使定位窗口缺失一部分目标,智能体也会优先选择增大IoU的动作。但由于IoU和Recall的变化方向不完全一致,因此可能会出现IoU增加而Recall不变甚至下降的情况,因此使用该奖励函数难以保证定位窗口较完整地包含分割目标。针对粗分割任务,需要优先保证相邻状态的Recall保持递增或维持最大值,以上两种情况的奖励分数应该最大。本文设计的奖励函数如式(8)所示。
![]() |
本文的奖励函数分为两部分,常规动作奖励以及移动惩罚项。常规动作奖励如式(9)所示,整体的取值范围为[−2,2],该奖励函数在优先考虑Recall变化的情况下根据IoU的变化给予相应的分值。满足的奖励为
+ 1 ,其中同时增加IoU与Recall的动作奖励最大;
的奖励函数为
,为了提高维持完整包围目标的动作优先级,如果此时
,本文额外将奖励结果翻倍,即奖励为
;其他条件不符合粗分割任务的要求,因此直接提供负值奖励。
![]() |
移动惩罚项用于限制执行移动动作的次数,如式(10)所示。在定位过程中,大部分获取奖励的动作是缩放,移动只有发生缺失时才可能提供奖励,多数情况奖励为0,更多的作用是缩小窗口与目标的中心距离。窗口连续执行过多的移动动作,一方面会增加无效动作的占比,另一方面容易产生循环动作序列,使窗口在有限步数内不能准确地定位目标。因此本文增加了一个惩罚项,当移动动作的连续执行次数达到5次及以上时,给予一个较大的负值奖励。
![]() |
本文的停止奖励采取常规的阈值奖励函数,对窗口的IoU和Recall指标进行阈值判断,如式(11)所示。执行停止动作,若当前窗口w与目标包围框g的IoU和Recall均大于各自的阈值
和
,则奖励为正值,否则为负值。
![]() |
1.4.6 细分割模块
将B型主动脉夹层数据经过粗分割模块处理,获取每个切片的目标包围框,得到所有切片的粗分割结果。本文选取Unet[14]、TransUnet[15]、SwinUnet[16]、MT-Unet[17]作为细分割阶段模型,将粗分割结果集合作为输入,得到分割精度更高的结果图像。
2 实验设计与分析
2.1 数据集
本文的实验数据来自广东省人民医院公开的主动脉夹层CT血管造影(computed tomography angiography,CTA)图像[25],原始数据包含100个B型主动脉夹层的三维数据样例,其中片间距为0.75 mm,体素大小为0.25 mm×0.25 mm×0.25 mm。该数据集包含3种标注数据,分别对应主动脉真腔、假腔以及假腔血栓。本文实验只使用假腔标签,并从横断面方向筛选出包含B型夹层的切片数据,共计26 306张,最后进行归一化处理。实验数据根据样例进行划分,训练集和测试集的比例为7∶3。
2.2 参数设置与评价指标
强化学习网络使用Adam优化器进行参数更新,训练batch大小为100,学习率为1 × 10−5,训练epoch设置为4,评估网络的参数每100次更新后分配给目标网络。特征网络和分割网络的batch为20,学习率为1 × 10−4,训练epoch为30。为了让智能体在训练早期尽可能探索更多种情况的搜索序列,本文在训练过程中采用ε-greedy[26]搜索策略,智能体随机选择动作的概率是ε,根据最大Q值选择动作的概率为1-ε,其初始值为0.5,随着迭代次数的增加,ε会逐渐减少。智能体寻找目标的最大步长设置为40,回放经验池的大小为50 000,折扣因子γ为0.9。停止奖励中的为0.27,
为0.97。定位窗口的初始边长为图像边长的3/4。针对窗口越界问题,本文采取的方法是:当出现越界情况时,重新随机选择动作,而不是进行边界裁剪。
实验采用IoU、Dice相似系数、精确率(Precision)以及分类任务的召回率(Recall2,与包围框的Recall区分)四种指标衡量分割模型的性能,IoU的公式如式(3)所示,其他指标的公式如下所示。
![]() |
![]() |
![]() |
式(13)、式(14)中的TP、FP和FN分别代表真阳性数量、假阳性数量和假阴性数量。
2.3 实验结果与分析
2.3.1 B型主动脉夹层定位过程
图6展示了一个样本的定位序列。白色标记为目标对象,红色包围框为每一步的定位结果。每一步动作在保持高Recall指标的前提下,尽可能缩小包围框的尺寸。最终,窗口定位到待分割目标位置,除去其他冗余内容。

a-i. 定位过程的窗口变换示意图
Figure6. Localization process of type B aortic dissectiona-i. window transformation diagram of the localization process
2.3.2 定位策略对比
采用不同定位策略的结果如表1所示。可以看出基于R1的IoU指标总是高于R2,而基于R2的Recall指标更高,这是奖励函数驱动的结果。R1促使智能体朝着提高IoU的方向行动,而本文的R2奖励优先考虑Recall。加入窗口分离可以进一步提升Recall,窗口分离可以有效避免产生循环序列,一定程度上减少智能体在定位目标过程中的无效步数。由于粗分割阶段对结果的完整性要求更高,因此在后续的分割模型对比中,本文选择Recall表现最高的定位策略作为B型夹层的定位方法;而对于目标检测等仅对IoU有高要求的任务可以选择R1对应的奖励函数。

2.3.3 分割方法对比
为了验证本文方法的有效性,将本文提出的分割流程应用于多种分割模型,与对应的基准分割结果进行对比。所有的比较实验均在本文的数据集上进行,采用相同的数据划分方式以及参数设置。该实验使用的分割模型如下:
(1)Unet[14]是经典的医学分割模型,通过对称的编码器-解码器的U型网络架构以及跳跃式连接将编码器和解码器中对应的特征图相连接,从而引入更多的上下文信息。
(2)TransUnet[15]是将Transformer和Unet结合的分割模型,通过Transformer的自注意力机制来提取图像特征,从而捕捉到更全局的语义信息,在一些复杂场景表现更加准确。
(3)SwinUnet[16]在Unet的基础上,将所有的卷积block换成了Swin-Transformer block。相比Transformer,Swin-Transformer采取了分层的方式组织注意力机制,提高了模型的感受野和特征表达能力。
(4)MT-Unet[17]将Unet的部分内容替换为新的混合Transformer模块(mixed transformer module,MTM),MTM首先通过局部-全局高斯加权自注意(local-global Gaussian-weighted self-attention,LGG-SA)有效地计算窗口内部相似度,对不同粒度的短期和长期依赖进行建模。然后,通过外部注意挖掘数据样本之间的联系。
表2展示了不同分割方法的分割结果。与直接使用分割模型相比,使用本文方法的分割结果在各项指标上均有提升,其中Dice指标分别提高了1.34%、0.89%、27.66%和7.37%。对于基础分割效果较好的分割模型,如Unet、TransUnet以及MT-Unet,分割精度仍有一定的提升,提升空间较小的原因是这些模型受背景因素的影响较小,因此本文方法的提升上限较低;而对于基础分割效果较差的模型,如SwinUnet,能够显著提高分割精度。使用本文方法可以去除分割目标以外的大部分冗余信息,将分割模型的关注点集中在有效范围内,增大目标与背景间的特征差异,因此对于容易受到背景干扰的数据集或鲁棒性较差的分割模型有一定的辅助作用;同时提供一种可以进一步提高模型精度上限的参考方法。

3 结论
针对主动脉夹层分割问题,本文提出了基于Double DQN的B型主动脉夹层目标定位方法。本文对常规定位奖励函数进行分析与讨论,指出它们在粗分割应用中存在的缺点与不足,并设计出适合该问题的奖励函数,同时提出能有效避免发生目标缺失的窗口分离机制。实验表明,本文提出的奖励函数能有效地指导智能体实现主动脉夹层的定位任务,在优先保证高Recall的同时,尽可能缩小窗口的大小,除去大部分的冗余信息,在一定程度上进一步提高了分割网络模型的分割精度,实验结果证明了该项改进的有效性。此外本文的方法虽然提高了目标的完整性,但定位窗口对目标窗口的靠拢程度仍有一定的提升空间。在今后的研究中,将研究可以平衡二者的奖励函数,保持原本完整性的同时进一步减少数据冗余;同时尝试应用于其他主动脉夹层分型数据,以验证该方法在其他夹层类型的可行性。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:林先扬主要负责数据记录与分析、算法程序与设计以及论文编写,曾安、赵靖亮、潘丹、杨宝瑶主要负责实验流程、协调沟通、计划安排、提供实验指导以及论文审阅修订,刘鑫主要负责论文审阅修订。