基于深度学习的糖尿病视网膜病变(DR)自动分类有助于提高辅助诊断的精准性和高效性。本文通过改进的残差网络来实现对五种不同病变程度的DR分类。首先,将原残差网络第一个卷积层中的7 × 7卷积替换为三个小尺度的3 × 3卷积来减少网络计算量;其次,针对不同病变等级间因差异过小而导致的分类不准确问题,引入混合注意力机制来使模型更关注重要的病变特征;最后,为充分提取DR图像中所包含的病变组织形态特征,采用了跨层融合卷积的方式来代替普通的残差结构。为验证改进模型的分类有效性,将它应用于Kaggle失明检测竞赛数据集APTOS2019,实验结果表明本文的改进模型对五种不同DR病变等级的分类准确率和Kappa值分别达到97.75%和0.971 7。与一些现有模型相比,该方法在分类精度和表现上具有明显优势。
0 引言
据《IDF国际糖尿病联盟》报道[1],预计到2050年全球糖尿病人数将攀升至超过13亿。糖尿病患者体内紊乱的胰岛素代谢功能会引发多种并发症,糖尿病视网膜病变(diabetic retinopathy,DR)是其中最常见的一种,如果不对其进行早期干预,将导致不可逆的永久性失明[2],因此早期筛查DR对于糖尿病患者极其重要。基于视觉技术的计算机辅助诊断有助于实现DR检测的高效性,目前该技术主要分为两大类:机器学习方法和深度神经网络方法。但是,支持向量机、随机森林、决策树等[3-6]机器学习方法,需要人工选择出血点、增生血管等特征集,因此,无需主观提取特征且具有较强鲁棒性的深度学习方法成为当前主流研究方向。文献[7]在DenseNet169编码器顶部引入注意力模块,并使用交叉熵损失函数对模型进行训练,最终得到97%的准确率、97%的灵敏度和98.3%的特异性,但该方法完成的是二分类任务,即只能判断是否患有糖尿病,不能诊断DR病变程度。DR的不同病变等级可表征患者的糖尿病严重程度,通常对病变进行五分类,主要方法有:文献[8]采用Inception-ResNet-v2多模型融合方法,准确率达到82.18%,但该方法的网络模型过大,训练时间过长;文献[9]使用VGG16作为基础网络架构,在最后一个卷积层和第一个全连接层之间嵌入了空间金字塔层(spatial pyramid pooling,SPP),SPP层汇集特征并产生与相邻全连接层兼容的固定大小的输出向量,最后堆叠Network in Network(NiN)层增加模型的额外非线性,这项工作最终达到95%的准确率;文献[10]提出了一种改进的胶囊网络用于DR的检测和五分类,该模型首先通过卷积层和主胶囊层从眼底图像中提取特征,然后使用类胶囊层和Softmax层来估计图像属于特定类别的概率,在Messidor数据集上的准确率达到了97.98%。
尽管目前基于深度学习的DR分类检测模型得到了大量研究,但仍存在网络参数量多、病变特征提取不充分等问题,为此本文在以下三方面对传统的残差网络模型(ResNet50)进行改进,以实现对DR的高效分类:① 为减少模型参数计算量,在保证输出特征图与感受野大小都不变的前提下,将ResNet50网络第一个卷积层中的7 × 7卷积结构替换为三个3 × 3卷积核的堆叠结构;② 为解决不同病变等级间差异小,如微动脉瘤与小的出血点之间形态和颜色相似等问题,引入通道与空间的混合注意力机制;③ 为获取病变的多层次特征,增强网络的信息感知能力,将原残差结构中的3 × 3卷积替换为具有多尺度感受野的跨层融合卷积。
1 提出的方法
1.1 预处理
在模型搭建前本文先对数据集进行了预处理操作。首先,为减少计算量,分别以原始图像长和宽的一半作为圆心,并将长、宽中较小数值的一半作为半径进行圆形裁剪操作;其次,为提升图像整体对比度,采用限制对比度自适应直方图方法[11]将图像中对比度高于设定阈值(经验阈值为8)的部分均匀地分布到图像的每一个灰度值中;最后,为增强DR图像的病灶特征,对原始图像进行高斯滤波处理[如式(1)所示],之后将经过高斯滤波后的图像与原图像进行加权融合来得到增强特征后的图像[12][如式(2)所示]。
![]() |
![]() |
式(1)中表示高斯滤波,
为标准差,其值设为10;
表示滤波后图像;
表示卷积操作。式(2)中
表示图像融合的权重参数,本文将其分别设为4、–4和128;
表示处理后的最终图像。以APTOS2019数据库中的一张无病变样本为例,图1所示为预处理的各阶段结果。

1.2 模型搭建
本文以ResNet50[13]为基础,首先,应用小尺度卷积来降低原模型的计算量;其次,在最大下采样层和全连接层前引入混合卷积块注意力机制(convolutional block attention module,CBAM),通过上一层输出的特征图依次与通道和空间注意力模块所获得的特征图进行加权来帮助网络获取更多微小病变信息;最后,构建能够获取多尺度感受野的跨层融合卷积,以实现对DR图像中病变特征的多层次提取。本文模型的结构如图2所示,该改进模型的具体参数如表1所示。


1.2.1 小尺度卷积核的应用
为减少模型参数计算量的同时,保证输入特征层中提取的感受野大小不变,本文模型的L1层使用三个3 × 3的小尺度卷积核代替ResNet50的第一个卷积层中的7 × 7卷积核,可以证明这样的替换具有等效性(具体论证参见附件1)。若模型输入输出特征图的通道数都为C,则使用一个7 × 7卷积核所需参数量为:
![]() |
堆叠三个3 × 3卷积核所需参数量为:
![]() |
可以看出,三个3 × 3卷积核串联的参数量只有一个7 × 7卷积核的一半。因此,将第一个卷积层中的7 × 7卷积核用三个3 × 3卷积核来代替可减少模型参数量,提高网络运算效率。
1.2.2 混合注意力机制的引入
考虑到DR中微小的病灶点如微动脉瘤与出血点之间差异较小、不易分辨的特点,本文模型的L2层和L8层采用如图3所示的CBAM注意力机制模块[14],以实现从通道和空间两方面对有用微小特征信息的判别和提取。

通道注意力模块通过对特征图的不同通道进行加权来突出对当前任务最有用的通道特征[15]。首先,对上一层的输出特征图F(大小为)的宽和高进行全局平均池化和最大池化操作得到两个
大小的特征图;之后将CBAM机制中原有的共享全连接层用
卷积层来代替,从而在不改变图像空间结构的基础上使输入通道数可为任意值,其中第一个卷积层的通道数为
,R为超参数,本文设为16,用于调节输出通道数,第二个卷积层的通道数为C;而后将经过共享卷积层的特征
进行加和操作后再经过Sigmoid函数进行激活操作,得到最终的通道注意力特征图。
空间注意力模块通过学习特征图的空间注意力权重来强调空间位置上的重要特征。首先,将经过通道注意力模块获取的特征图分别利用最大池化和平均池化操作获取特征图在通道维度上的最大响应和平均响应,以此来捕捉在每个位置上最显著的病变特征;然后,将得到的两个
的特征图在通道维度上进行拼接得到
,再经过一个
大小的卷积操作,将通道数降维为1后,应用Sigmoid激活函数,生成用于增强重要空间位置特征的空间注意力特征图;之后,在上一层获取的输出特征图
与通道注意力特征图
和空间注意力特征图
进行逐元素相乘,其输出特征图即为经过混合注意力机制处理的结果。
1.2.3 跨层融合卷积网络
为使网络在更关注小尺度细节(如微小的病灶点和血管等纹理信息)的同时也能关注到大尺度模式(如DR的整个眼底形状),本文模型的L4层至L7层中采用了如图4所构建的跨层融合卷积网络结构。具体的设计思想是在输入特征层上获取不同大小的感受野,并对不同卷积层所获得的特征进行融合,使网络能够检测到更详细全面的病变信息[16]。该结构主要由1 × 1卷积层、批量归一化层、ReLU激活函数、跨层融合卷积层(包含1 × 1、3 × 3、5 × 5、7 × 7四种尺度)以及残差结构构成。

在跨层融合卷积中,S是控制比例尺寸的重要参数,它可以将输入通道数平均等分为多个特征通道,S越大表明多尺度能力越强。对于S值的选取,因残差网络每一层的通道数都为,为确保每个分支模块都能均匀地处理特征图的不同部分,故S的取值也应为
,其目的是保证划分后的特征图尺寸的一致性和对称性,继而保证网络的整体性能和效果。因此本文在基本的ResNet50模型上分别对S取值为1、2、4、8、16进行验证,以在测试集上对DR五分类准确率的高低为评判标准,来选取S的最优值。经实验验证,当S = 4时的分类准确率最高,达到96.64%,而随着S的增加,跨层融合卷积网络内部的计算量和存储的复杂性也会增加,导致模型出现了过拟合现象。
确定S取为4后,可将输入通道数通过1×1卷积后均匀地划分为4个大小相等的特征通道,分别用(i = 1, 2,…, S)表示它们。之后每个
都与
的输出结果相加,并进行3×3卷积继而得到
。为减少网络的参数量,
不进行卷积操作,直接输出结果
。随后,由卷积处理得到的特征图,经过层间融合与累加操作后,便获得了1 × 1、3 × 3、5 × 5、7 × 7四种尺寸的卷积核所对应的感受野(具体网络参数参见附件2)。最后,将所得结果
、
、
、
进行聚合,再通过一个1 × 1大小的卷积核后与输入相加得到最终的输出。通过这种方式,模型可以在一张病变图像上同时捕捉多尺度、多层次的特征信息,进而增强对DR不同病变特征的提取能力。
2 实验结果与分析
2.1 数据集与实验设置
本文以Kaggle竞赛中公开的APTOS2019数据集[17]作为实验对象,该数据集由3 662张图片构成,包含了国际临床疾病严重程度量表[18]对DR病变划分的DR0至DR4五个等级,即正常无病变、轻度非增殖性病变、中度非增殖性病变、重度非增殖性病变和增殖性病变。但是该数据集中DR图像具有分辨率大小不一的问题,为此本文统一将其调整为,同时在训练过程中使用数据增强的手段,包括镜像、旋转、平移和增强亮度。在对比实验中,本文将预处理后的数据集按照8∶1∶1的比例划分为训练集、验证集和测试集。Epoch设为50次,学习率设为0.001,Batchsize设为32。
本文所有实验均采用百度飞桨平台提供的PaddlePaddle框架;使用V100显卡,每块显卡算力为27.8,显存为16 GB;运行内存为256 GB。
2.2 评价指标
本文使用准确率(Accuracy,Acc)、召回率(Recall)、特异度(Specificity,Spe)、一致性检验(Kappa)作为DR五分类的评价指标,其定义如式(5)~式(8)所示。Acc是分类正确的样本数占总样本数的比例;Recall衡量了在所有实际为正确的样本中,成功预测的比例;Spe衡量了模型对非该DR等级判断正确的能力;Kappa是分类精度的指标,其范围为–1 ~ 1,越接近1表示分类结果一致性越高。
![]() |
![]() |
![]() |
![]() |
其中,TP表示模型正确预测为真实DR等级的数量,TN表示正确排除非该等级的数量,FP表示错误地将非该等级预测为该等级,FN表示错误地将该等级预测为非该等级。P0是算法正确预测的图片比例,Pe表示在所有DR等级中每类实际和预测样本数量的乘积与总样本数平方的比例。
2.3 结果分析
2.3.1 小尺度卷积核对比实验
为验证在使用多个小尺度卷积核堆叠代替一个大尺度卷积核时,能够在保持感受野的同时降低参数量并提高计算效率,本文在参数量和运行时间两方面进行了对比实验。如图5所示,应用3 × 3小尺度卷积所需的模型参数量与运行一轮的时间都要低于7 × 7卷积。

2.3.2 注意力机制对比
为选取最优的注意力机制,本文将不同的注意力机制与基础模型ResNet50结合进行了对比实验,结果如表2所示。

可以看到,CBAM注意力机制在Acc和Kappa上表现最优;归一化注意力机制(normalization attention,NA)[19]将注意力权重限制在[0, 1]范围内,从而使得模型不能对感兴趣的病灶特征赋予更高的权重;压缩和激励注意力机制(squeeze and excitation,SE)[20]仅关注输入特征图的通道特征,忽视了空间特征;有效通道注意力机制(efficient channel attention,ECA)[21]使用的1D卷积操作是局部操作,仅考虑相邻通道之间的关系,无法捕捉到全局范围内通道之间的复杂关系。
为进一步展示不同注意机制对于病变图像的关注度,本文选取一张病变较容易观察的图像,并通过类激活热力图Grad-CAM来可视化模型的注意力区域,实验结果如图6所示。其中CBAM模型对于病变的关注度是最紧密全面的,其余注意机制均存在关注不足或关注过度的状况。

2.3.3 消融实验
为了验证所提模型对DR分类性能的提升,本文进行了消融实验,实验结果如表3所示。

可以看到,表3中实验八即本文模型所得到的结果最好。其中,小尺度卷积的消融实验是指将ResNet50中的7 × 7卷积替换为小尺度卷积;注意力机制部分的实验是指在原有ResNet50的基础上增加CBAM模块;跨层融合卷积实验是指将原有的残差结构替换为跨层融合卷积网络。
图7为消融实验中的实验八即本文模型得到的混淆矩阵,对角线上的值表示模型在每个DR类别上的正确分类比例。

2.3.4 不同模型的性能对比
为进一步说明所改进模型性能的优越性,本文从Acc、Recall、Spe和Kappa四个方面将本文所提模型与经典卷积神经网络(LeNet)[22]、密集连接网络(DenseNet)[23]、多尺度卷积网络(GoogleNet)[24]、残差网络(ResNet)所得的DR五分类结果进行对比,结果如图8所示。

同时,本文对现有一些已发表的方法在同一数据集上进行了重现,结果如表4所示。可以看到,本文所构建的模型均具有较明显的优势,不仅识别准确率提高到了97.75%,而且该模型的参数数量也相对较少。文献[25]使用DenseNet-121作为基础模型,并在DenseNet模块后添加了2D全局平均池化层和丢弃率为0.5的dropout层,对于输出层,使用了具有5个输出节点的密集层和S型激活函数,准确率为94.28%,Kappa值为0.928 1;文献[26]提出了Improved DR-Net算法,对ResNeXt50聚合残差结构进行预训练,通过迁移学习对模型进行参数及结构微调,引入空洞卷积代替普通卷积,并融合了注意力机制,准确率为95.69%,Kappa值为0.945 8;文献[27]提出了一种基于卷积神经网络的多标签眼底病变分类模型,由四个卷积层、三个最大池化层和三个全连接层组成,同时还引入了SE模块,准确率为92.64%,Kappa值为0.907 4。

3 结论
针对糖尿病视网膜病变分级困难、分类准确率低、模型参数量多等问题,本文构建了一种融合小尺度卷积、注意力机制与跨层融合卷积网络的ResNet50分类模型来对DR病变程度进行分类。该模型以较小的计算量实现了较高的分类准确率。实验表明,本文所提模型达到97.75%的准确率,相对于其他分类模型,取得了更优的效果。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:郭莹负责论文整体规划、实验设计与核实、研究课题监管与指导、论文审阅与修订;李绍杰负责改进模型的实现、实验数据的分析、实验结果可视化、论文初稿的撰写与修改。
本文附件见本刊网站的电子版本(biomedeng.cn)。
0 引言
据《IDF国际糖尿病联盟》报道[1],预计到2050年全球糖尿病人数将攀升至超过13亿。糖尿病患者体内紊乱的胰岛素代谢功能会引发多种并发症,糖尿病视网膜病变(diabetic retinopathy,DR)是其中最常见的一种,如果不对其进行早期干预,将导致不可逆的永久性失明[2],因此早期筛查DR对于糖尿病患者极其重要。基于视觉技术的计算机辅助诊断有助于实现DR检测的高效性,目前该技术主要分为两大类:机器学习方法和深度神经网络方法。但是,支持向量机、随机森林、决策树等[3-6]机器学习方法,需要人工选择出血点、增生血管等特征集,因此,无需主观提取特征且具有较强鲁棒性的深度学习方法成为当前主流研究方向。文献[7]在DenseNet169编码器顶部引入注意力模块,并使用交叉熵损失函数对模型进行训练,最终得到97%的准确率、97%的灵敏度和98.3%的特异性,但该方法完成的是二分类任务,即只能判断是否患有糖尿病,不能诊断DR病变程度。DR的不同病变等级可表征患者的糖尿病严重程度,通常对病变进行五分类,主要方法有:文献[8]采用Inception-ResNet-v2多模型融合方法,准确率达到82.18%,但该方法的网络模型过大,训练时间过长;文献[9]使用VGG16作为基础网络架构,在最后一个卷积层和第一个全连接层之间嵌入了空间金字塔层(spatial pyramid pooling,SPP),SPP层汇集特征并产生与相邻全连接层兼容的固定大小的输出向量,最后堆叠Network in Network(NiN)层增加模型的额外非线性,这项工作最终达到95%的准确率;文献[10]提出了一种改进的胶囊网络用于DR的检测和五分类,该模型首先通过卷积层和主胶囊层从眼底图像中提取特征,然后使用类胶囊层和Softmax层来估计图像属于特定类别的概率,在Messidor数据集上的准确率达到了97.98%。
尽管目前基于深度学习的DR分类检测模型得到了大量研究,但仍存在网络参数量多、病变特征提取不充分等问题,为此本文在以下三方面对传统的残差网络模型(ResNet50)进行改进,以实现对DR的高效分类:① 为减少模型参数计算量,在保证输出特征图与感受野大小都不变的前提下,将ResNet50网络第一个卷积层中的7 × 7卷积结构替换为三个3 × 3卷积核的堆叠结构;② 为解决不同病变等级间差异小,如微动脉瘤与小的出血点之间形态和颜色相似等问题,引入通道与空间的混合注意力机制;③ 为获取病变的多层次特征,增强网络的信息感知能力,将原残差结构中的3 × 3卷积替换为具有多尺度感受野的跨层融合卷积。
1 提出的方法
1.1 预处理
在模型搭建前本文先对数据集进行了预处理操作。首先,为减少计算量,分别以原始图像长和宽的一半作为圆心,并将长、宽中较小数值的一半作为半径进行圆形裁剪操作;其次,为提升图像整体对比度,采用限制对比度自适应直方图方法[11]将图像中对比度高于设定阈值(经验阈值为8)的部分均匀地分布到图像的每一个灰度值中;最后,为增强DR图像的病灶特征,对原始图像进行高斯滤波处理[如式(1)所示],之后将经过高斯滤波后的图像与原图像进行加权融合来得到增强特征后的图像[12][如式(2)所示]。
![]() |
![]() |
式(1)中表示高斯滤波,
为标准差,其值设为10;
表示滤波后图像;
表示卷积操作。式(2)中
表示图像融合的权重参数,本文将其分别设为4、–4和128;
表示处理后的最终图像。以APTOS2019数据库中的一张无病变样本为例,图1所示为预处理的各阶段结果。

1.2 模型搭建
本文以ResNet50[13]为基础,首先,应用小尺度卷积来降低原模型的计算量;其次,在最大下采样层和全连接层前引入混合卷积块注意力机制(convolutional block attention module,CBAM),通过上一层输出的特征图依次与通道和空间注意力模块所获得的特征图进行加权来帮助网络获取更多微小病变信息;最后,构建能够获取多尺度感受野的跨层融合卷积,以实现对DR图像中病变特征的多层次提取。本文模型的结构如图2所示,该改进模型的具体参数如表1所示。


1.2.1 小尺度卷积核的应用
为减少模型参数计算量的同时,保证输入特征层中提取的感受野大小不变,本文模型的L1层使用三个3 × 3的小尺度卷积核代替ResNet50的第一个卷积层中的7 × 7卷积核,可以证明这样的替换具有等效性(具体论证参见附件1)。若模型输入输出特征图的通道数都为C,则使用一个7 × 7卷积核所需参数量为:
![]() |
堆叠三个3 × 3卷积核所需参数量为:
![]() |
可以看出,三个3 × 3卷积核串联的参数量只有一个7 × 7卷积核的一半。因此,将第一个卷积层中的7 × 7卷积核用三个3 × 3卷积核来代替可减少模型参数量,提高网络运算效率。
1.2.2 混合注意力机制的引入
考虑到DR中微小的病灶点如微动脉瘤与出血点之间差异较小、不易分辨的特点,本文模型的L2层和L8层采用如图3所示的CBAM注意力机制模块[14],以实现从通道和空间两方面对有用微小特征信息的判别和提取。

通道注意力模块通过对特征图的不同通道进行加权来突出对当前任务最有用的通道特征[15]。首先,对上一层的输出特征图F(大小为)的宽和高进行全局平均池化和最大池化操作得到两个
大小的特征图;之后将CBAM机制中原有的共享全连接层用
卷积层来代替,从而在不改变图像空间结构的基础上使输入通道数可为任意值,其中第一个卷积层的通道数为
,R为超参数,本文设为16,用于调节输出通道数,第二个卷积层的通道数为C;而后将经过共享卷积层的特征
进行加和操作后再经过Sigmoid函数进行激活操作,得到最终的通道注意力特征图。
空间注意力模块通过学习特征图的空间注意力权重来强调空间位置上的重要特征。首先,将经过通道注意力模块获取的特征图分别利用最大池化和平均池化操作获取特征图在通道维度上的最大响应和平均响应,以此来捕捉在每个位置上最显著的病变特征;然后,将得到的两个
的特征图在通道维度上进行拼接得到
,再经过一个
大小的卷积操作,将通道数降维为1后,应用Sigmoid激活函数,生成用于增强重要空间位置特征的空间注意力特征图;之后,在上一层获取的输出特征图
与通道注意力特征图
和空间注意力特征图
进行逐元素相乘,其输出特征图即为经过混合注意力机制处理的结果。
1.2.3 跨层融合卷积网络
为使网络在更关注小尺度细节(如微小的病灶点和血管等纹理信息)的同时也能关注到大尺度模式(如DR的整个眼底形状),本文模型的L4层至L7层中采用了如图4所构建的跨层融合卷积网络结构。具体的设计思想是在输入特征层上获取不同大小的感受野,并对不同卷积层所获得的特征进行融合,使网络能够检测到更详细全面的病变信息[16]。该结构主要由1 × 1卷积层、批量归一化层、ReLU激活函数、跨层融合卷积层(包含1 × 1、3 × 3、5 × 5、7 × 7四种尺度)以及残差结构构成。

在跨层融合卷积中,S是控制比例尺寸的重要参数,它可以将输入通道数平均等分为多个特征通道,S越大表明多尺度能力越强。对于S值的选取,因残差网络每一层的通道数都为,为确保每个分支模块都能均匀地处理特征图的不同部分,故S的取值也应为
,其目的是保证划分后的特征图尺寸的一致性和对称性,继而保证网络的整体性能和效果。因此本文在基本的ResNet50模型上分别对S取值为1、2、4、8、16进行验证,以在测试集上对DR五分类准确率的高低为评判标准,来选取S的最优值。经实验验证,当S = 4时的分类准确率最高,达到96.64%,而随着S的增加,跨层融合卷积网络内部的计算量和存储的复杂性也会增加,导致模型出现了过拟合现象。
确定S取为4后,可将输入通道数通过1×1卷积后均匀地划分为4个大小相等的特征通道,分别用(i = 1, 2,…, S)表示它们。之后每个
都与
的输出结果相加,并进行3×3卷积继而得到
。为减少网络的参数量,
不进行卷积操作,直接输出结果
。随后,由卷积处理得到的特征图,经过层间融合与累加操作后,便获得了1 × 1、3 × 3、5 × 5、7 × 7四种尺寸的卷积核所对应的感受野(具体网络参数参见附件2)。最后,将所得结果
、
、
、
进行聚合,再通过一个1 × 1大小的卷积核后与输入相加得到最终的输出。通过这种方式,模型可以在一张病变图像上同时捕捉多尺度、多层次的特征信息,进而增强对DR不同病变特征的提取能力。
2 实验结果与分析
2.1 数据集与实验设置
本文以Kaggle竞赛中公开的APTOS2019数据集[17]作为实验对象,该数据集由3 662张图片构成,包含了国际临床疾病严重程度量表[18]对DR病变划分的DR0至DR4五个等级,即正常无病变、轻度非增殖性病变、中度非增殖性病变、重度非增殖性病变和增殖性病变。但是该数据集中DR图像具有分辨率大小不一的问题,为此本文统一将其调整为,同时在训练过程中使用数据增强的手段,包括镜像、旋转、平移和增强亮度。在对比实验中,本文将预处理后的数据集按照8∶1∶1的比例划分为训练集、验证集和测试集。Epoch设为50次,学习率设为0.001,Batchsize设为32。
本文所有实验均采用百度飞桨平台提供的PaddlePaddle框架;使用V100显卡,每块显卡算力为27.8,显存为16 GB;运行内存为256 GB。
2.2 评价指标
本文使用准确率(Accuracy,Acc)、召回率(Recall)、特异度(Specificity,Spe)、一致性检验(Kappa)作为DR五分类的评价指标,其定义如式(5)~式(8)所示。Acc是分类正确的样本数占总样本数的比例;Recall衡量了在所有实际为正确的样本中,成功预测的比例;Spe衡量了模型对非该DR等级判断正确的能力;Kappa是分类精度的指标,其范围为–1 ~ 1,越接近1表示分类结果一致性越高。
![]() |
![]() |
![]() |
![]() |
其中,TP表示模型正确预测为真实DR等级的数量,TN表示正确排除非该等级的数量,FP表示错误地将非该等级预测为该等级,FN表示错误地将该等级预测为非该等级。P0是算法正确预测的图片比例,Pe表示在所有DR等级中每类实际和预测样本数量的乘积与总样本数平方的比例。
2.3 结果分析
2.3.1 小尺度卷积核对比实验
为验证在使用多个小尺度卷积核堆叠代替一个大尺度卷积核时,能够在保持感受野的同时降低参数量并提高计算效率,本文在参数量和运行时间两方面进行了对比实验。如图5所示,应用3 × 3小尺度卷积所需的模型参数量与运行一轮的时间都要低于7 × 7卷积。

2.3.2 注意力机制对比
为选取最优的注意力机制,本文将不同的注意力机制与基础模型ResNet50结合进行了对比实验,结果如表2所示。

可以看到,CBAM注意力机制在Acc和Kappa上表现最优;归一化注意力机制(normalization attention,NA)[19]将注意力权重限制在[0, 1]范围内,从而使得模型不能对感兴趣的病灶特征赋予更高的权重;压缩和激励注意力机制(squeeze and excitation,SE)[20]仅关注输入特征图的通道特征,忽视了空间特征;有效通道注意力机制(efficient channel attention,ECA)[21]使用的1D卷积操作是局部操作,仅考虑相邻通道之间的关系,无法捕捉到全局范围内通道之间的复杂关系。
为进一步展示不同注意机制对于病变图像的关注度,本文选取一张病变较容易观察的图像,并通过类激活热力图Grad-CAM来可视化模型的注意力区域,实验结果如图6所示。其中CBAM模型对于病变的关注度是最紧密全面的,其余注意机制均存在关注不足或关注过度的状况。

2.3.3 消融实验
为了验证所提模型对DR分类性能的提升,本文进行了消融实验,实验结果如表3所示。

可以看到,表3中实验八即本文模型所得到的结果最好。其中,小尺度卷积的消融实验是指将ResNet50中的7 × 7卷积替换为小尺度卷积;注意力机制部分的实验是指在原有ResNet50的基础上增加CBAM模块;跨层融合卷积实验是指将原有的残差结构替换为跨层融合卷积网络。
图7为消融实验中的实验八即本文模型得到的混淆矩阵,对角线上的值表示模型在每个DR类别上的正确分类比例。

2.3.4 不同模型的性能对比
为进一步说明所改进模型性能的优越性,本文从Acc、Recall、Spe和Kappa四个方面将本文所提模型与经典卷积神经网络(LeNet)[22]、密集连接网络(DenseNet)[23]、多尺度卷积网络(GoogleNet)[24]、残差网络(ResNet)所得的DR五分类结果进行对比,结果如图8所示。

同时,本文对现有一些已发表的方法在同一数据集上进行了重现,结果如表4所示。可以看到,本文所构建的模型均具有较明显的优势,不仅识别准确率提高到了97.75%,而且该模型的参数数量也相对较少。文献[25]使用DenseNet-121作为基础模型,并在DenseNet模块后添加了2D全局平均池化层和丢弃率为0.5的dropout层,对于输出层,使用了具有5个输出节点的密集层和S型激活函数,准确率为94.28%,Kappa值为0.928 1;文献[26]提出了Improved DR-Net算法,对ResNeXt50聚合残差结构进行预训练,通过迁移学习对模型进行参数及结构微调,引入空洞卷积代替普通卷积,并融合了注意力机制,准确率为95.69%,Kappa值为0.945 8;文献[27]提出了一种基于卷积神经网络的多标签眼底病变分类模型,由四个卷积层、三个最大池化层和三个全连接层组成,同时还引入了SE模块,准确率为92.64%,Kappa值为0.907 4。

3 结论
针对糖尿病视网膜病变分级困难、分类准确率低、模型参数量多等问题,本文构建了一种融合小尺度卷积、注意力机制与跨层融合卷积网络的ResNet50分类模型来对DR病变程度进行分类。该模型以较小的计算量实现了较高的分类准确率。实验表明,本文所提模型达到97.75%的准确率,相对于其他分类模型,取得了更优的效果。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:郭莹负责论文整体规划、实验设计与核实、研究课题监管与指导、论文审阅与修订;李绍杰负责改进模型的实现、实验数据的分析、实验结果可视化、论文初稿的撰写与修改。
本文附件见本刊网站的电子版本(biomedeng.cn)。