结直肠息肉的早期诊断和治疗对于预防结直肠癌至关重要。本文提出一种用于结直肠息肉自动检测与辅助诊断的轻量化卷积神经网络,首先基于53层卷积层骨干网络,引入空间金字塔池化模块,实现具有不同感受野大小的特征提取。然后,采用特征金字塔网络对骨干网络中不同尺度的特征图进行交叉融合,利用空间注意力模块提高对息肉图像边界和细节的感知能力。再进一步通过位置模式注意力模块,在不同层级的特征图中自动挖掘关键特征并整合,以实现快速高效准确的结直肠息肉自动检测。本文基于临床数据集对所提模型进行评估,其精度达到0.998 2,召回率达到0.998 8,F1分数达到0.998 4,平均精度(mAP)在交并比(IOU)为0.5时达到0.995 3,帧率74 帧/s,参数量9.08 M。相较于现有主流方法,本文所提出方法具有轻量化、运行配置要求低、高检测速度、高精度等特点,可为结直肠癌的早期检测和诊断提供可行的技术方法和重要工具。
引用本文: 李奕扬, 赵佳漪, 余若伊, 刘辉翔, 梁爽, 谷宇. 基于多尺度多层次特征融合和轻量化卷积神经网络的结直肠息肉检测. 生物医学工程学杂志, 2024, 41(5): 911-918. doi: 10.7507/1001-5515.202312014 复制
0 引言
结直肠癌是世界范围内的第三大恶性肿瘤,而中国结直肠癌发生率、死亡率均处于世界较高水平。据统计,2020年中国结直肠癌发病人数55.5万例,位列中国各癌种第二位,占中国总癌种发病人数的12.2%,占全球该类癌症发病人数的28.8%;总死亡人数28.6万例,位列中国各癌种死亡人数的第五位,占中国总癌种死亡人数的9.5%,占全球该类癌症死亡人数的30.6%[1]。80%~95%的结直肠癌是在多基因、多机制的作用下由结直肠息肉经过约5~10年演变而来[2]。结直肠息肉主要分为腺瘤型息肉和增生型息肉,腺瘤型的致癌率远高于增生型[3],因此早期息肉的准确分型对于后续治疗计划的制定至关重要[4]。
虽然结直肠息肉检查方法有多种,但结肠镜检查是诊断肠道病变的“金标准”,在息肉检出与诊断中较为有效[5]。研究显示,平均腺瘤检出率每增加1.0%,结直肠癌发生风险可降低3.0%[6]。但结肠镜检查可能受肠道准备的清洁程度[7]、退镜时间[8]以及内镜医师的技术水平等因素影响[9-10]。Bretthauer等[11]在多中心大样本临床数据上的研究表明,不同内镜医师之间由于主观因素影响,腺瘤检出率差异高达10倍。尽管有研究尝试通过提高内镜操作技术和肠道准备质量来提高息肉和腺瘤的检出率,但结果并不理想[12]。因此,目前亟需一种更客观且自动化的息肉检测方法。
在医学图像检测识别中,人工智能(artificial intelligence,AI)辅助诊断已获得广泛应用[13]。通过AI辅助检测,可以有效提升息肉检出率[14-15]。研究显示,当借助AI辅助进行人工诊断时,息肉检出率比纯人工检测显著提升[16]。AI的深度学习目标检测算法具有强大的表征学习能力和拟合能力,应用于息肉检测已取得了一定效果[17]。根据是否存在候选区域生成网络,目标检测算法主要分为两种类型:两阶段目标检测算法和单阶段目标检测算法[18]。两阶段目标检测算法步骤为:先提取候选区域,再对每个区域进行分类和定位。例如,有研究采用区域卷积神经网络(region-based convolutional neural network,R-CNN)在结直肠息肉的检测方面取得了显著的进步[19],但在检测速度上仍不能满足临床检验的需求[20]。而单阶段目标检测算法通过将目标分类和边界框回归两个任务合并为一个步骤,可以更高效地进行目标检测。现有的单阶段目标检测算法,如“你只需看一次(you only look once,YOLO)”[21]、单次多框检测器(single shot multi-box detector,SSD)[22]等,检测速度较快,初步实现了实时目标的检测;但在检测小目标时,由于目标所占的像素区域较少,随着网络深度的加深容易丢失细节特征,导致算法精度受限[23]。此外,现有基于轻量化目标检测模型难以同时满足小体量和较高准确率的需要[24],对临床场景下硬件计算能力具有较高要求。
为了解决以上问题,本文拟提出基于轻量化卷积神经网络的结直肠息肉检测算法,以期在结直肠息肉检测领域实现以下目标:
(1)本研究拟通过在主干网络中引入空间金字塔池化(spatial pyramid pooling,SPP),增强模型在不同空间尺度下的特征提取能力以及整合能力。
(2)本研究拟在特征网络融合部分,采用特征金字塔网络(feature pyramid network,FPN),通过多层次特征交互的网络结构加强模型的表达能力,在此基础上引入空间注意力模块(spatial attention module,SAM),对图像中的息肉病变区域赋予更高的注意权重,以提高模型感知能力。
(3)本研究拟引入位置模式注意力(positional pattern attention,PPA)模块进行信息聚合,以期降低目标检测模型参数规模,实现低配置下保持较快检测速度和高准确度的特性。
1 方法
1.1 整体流程
结直肠息肉的形状和颜色多样,表面特点不一,在内镜下易产生噪声和伪影[25],传统目标检测方法在识别过程中易受噪声影响产生检测误差[26]。针对上述问题,本文提出一种基于轻量化卷积神经网络的结直肠息肉检测模型。如图1所示,本研究所提出模型以YOLO系列X版本小模型(YOLO X-small,YOLOX-S)的目标检测模块作为检测框架的基准模型。

为实现结直肠息肉图像的特征有效提取,在主干网络部分,本研究选择53层深度卷积神经网络架构作为特征提取模块,并在此基础上增加SPP模块整合输出特征;特征融合网络中,本研究采用 FPN 模块对骨干网络提取的不同尺度的特征图进行融合;本研究采用SAM模块,通过注意力机制增强模型对息肉图像边界和上下文细节的表示能力。最后,本研究通过增加PPA模块,在不同层级的特征图中自适应挖掘显著特征并实现聚合,以期提高模型的检测性能。在预测部分,模型通过解耦头并行处理分类和回归任务,最终输出待检测目标息肉的边界框坐标及息肉分型等信息。
1.2 基于SPP模块提取多尺度特征
本模型引入SPP模块解决图像尺寸和目标大小变化的问题,实现在不同特征图尺寸上的特征池化,且有效减少了模型的参数数量。使用SPP模块进行目标检测时,可以对不同大小的池化特征图进行扁平化,得到固定大小的向量。如图2所示,扁平化后的向量通过级联方式形成高层次特征表示,从而更好地捕捉目标的细节和上下文信息。如图3所示,该模块的引入可以提高模型对不同尺寸息肉图像进行特征提取时的适应能力。


1.3 利用FPN多尺度特征融合
结直肠息肉的表面存在许多血管结构或不规则面,基于模型的骨干网络进行图像特征提取过程时,常常会忽略掉一些尺寸较小的细节特征,从而导致漏检或误检的出现。本研究在特征融合网络中引入FPN模块以提取不同尺度的特征,并利用不同层级的特征进行目标检测。本研究构建了基于自底向上的图像金字塔,并通过在底层特征图与高层特征图间建立横向连接,以保留底层特征的细节信息,并充分利用高层特征的语义信息。本研究还引入了自顶向下的跨尺度连接将高层特征图融合到底层特征图中,使特征图具有更丰富的上下文和语义信息,在多尺度下对图像进行目标检测,从而提高检测的准确度。
1.4 引入SAM增强感知能力
早期结直肠增生尚未形成明显息肉时,其颜色、纹理与正常肠组织相近,传统算法难以对其进行有效区分。为有效应对此类场景,本模型引入了SAM模块,增强模型对重要区域的关注度,提升其对结直肠息肉的感知能力。
如图4所示,SAM模块由特征映射和空间注意力机制两部分组成,将高(height,H)(符号记为H)、宽(width,W)(符号记为W)、通道数(channels,C)(符号记为C)的特征图作为输入,通过特征映射将其转换为高维特征表示,采用卷积、池化和激活函数提取输入数据的特征。SAM模块的核心是空间注意力机制,其根据特定的注意力方式对特征映射中的每个位置进行权重计算,有效提高了模型对结直肠息肉及其边缘像素的关注程度,同时忽略背景中的无用信息。

1.5 使用PPA模块进行信息聚合
本研究引入了PPA模块,以期增强目标检测任务的性能并增强泛化能力。输入的图像在经过多层卷积和池化的操作后,产生不同尺度的特征图。本研究首先将特征图分割成多个块,并在每个块上应用注意力机制,采用PPA模块在不同层级的特征图中自适应地寻找重要特征并进行整合。模型的注意力机制通过计算每个特征块内特征的全局平均池化值与全局最大池化值之间的比例,获得该特征块的重要性系数。根据重要性系数再对每个特征块进行加权平均,最后得到了经过注意力机制筛选和聚合后的特征。通过整合不同层级的特征,并利用注意力机制选择最重要的特征,PPA模块保留了原始特征的丰富表示,有效提升了模型的检测性能,增强了泛化能力。
1.6 任务网络头部设计
本研究在任务网络头部设计使用解耦机制,将输出端的H × W × 256的特征图解耦为对应目标的分类、回归和交并比(intersection over union,IOU)特征并完成相应的任务,如图5所示。

目标分类分支中采用卷积层和全连接层构建分类网络,将卷积特征图转换为目标类别预测。此分支中使用交叉熵损失函数衡量分类预测的准确性,计算预测标签和真实标签之间的差异, 如式(1)所示:
![]() |
其中,Lcls为分类损失函数,y为真实标签,p为模型预测出的概率值。位置回归分支通过卷积层和全连接层将卷积特征图转换为边界框的位置信息(边界框的中心坐标、宽度和高度),并采用平滑L1损失函数来衡量预测边界框与真实边界框之间的位置差异,如式(2)所示:
![]() |
其中Lreg为回归损失函数,x是预测值与真实值之间的差异。在预测阶段,对解耦头的输出进行归一化操作,得到每个特征点属于每个类别的概率。模型利用对象置信度筛选出包含物体的预测框,根据回归参数调整框的位置,为每个预测框分配最高置信度的类别。模型的损失函数L采用跨阶段局部整合方法将分类和回归任务的损失函数综合,如式(3)所示:
![]() |
其中,λ为超参数,本文设置为1。
2 数据及参数设置
2.1 数据集介绍
本研究采用的数据集来自2023年“第八届全国大学生生物医学工程创新设计竞赛”,如图6所示,其提供了具有无息肉、增生性息肉、腺瘤性息肉等三种类别的28 773 张直肠息肉内镜图像,可公开获取。本研究依照交叉验证的方式,为保证数据独立互斥,将实验数据集按照6:2:2的比例划分为训练集、验证集与测试集,数据分布如表1所示。


2.2 参数设置及指标评价
如图7所示,本研究在结直肠息肉自动检测任务中对原始图像采用增加噪声、图像翻转、随机剪裁、颜色变化和高斯模糊等数据增强方式增加训练样本量,采用学习率调度器固定步长衰减(step learning rate,stepLR)策略在训练过程中动态调整学习率,学习率初始值为1 × 10−4,训练批次大小为16,轮次为200,并利用随机梯度下降(stochastic gradient descent,SGD)优化器更新模型的参数,每隔10轮次对模型进行评估,保存当前最优模型权重。

本研究分别采用精度(precision,pre)、召回率(recall,rec)、F1分数(f1-score, f1),以及平均精确度均值(mean average precision,mAP)在IOU阈值为0.5时的值(符号记为mAP@0.5)等指标评估模型的性能,如式(4)~式(6)所示:
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)为正样本分类正确的数量;假阳性(false positive,FP)为正样本分类错误的数量;真阴性(true negative,TN)为负样本分类正确的数量;假阴性(false ngative, FN)为负样本分类错误的数量。
mAP@0.5的计算需要先计算IOU(符号记为IOU),如式(7)所示:
![]() |
其中,A为预测框面积,B为真实框面积。若IOU > 0.5,则该预测框为TP,否则为FP;若没有预测框IOU > 0.5,则为FN。对于息肉的每个类别计算平均精确度(average precision,AP)(符号记为AP),如式(8)所示:
![]() |
其中,r为rec值,是在F ≥
时的最大pre值。最后,根据各类别的AP计算mAP(符号记为mAP),如式(9)所示:
![]() |
其中,num为类别数。
为进一步测试模型运行速度,使用帧率(frames per second,FPS)(符号记为FPS)作为模型推理速度的评价指标,计算公式如式(10)所示:
![]() |
其中,N为预测图像数量,t为总预测时间。
3 结果及讨论
结直肠息肉的检测在结直肠癌的早期防治中具有关键作用,肠镜是临床诊断肠道病变检测的“金标准”,但是肠镜结果易受到肠道准备的清洁程度、退镜时间以及医师主观因素的影响,导致检测准确性下降。因此,为满足临床对于检测模型的小体量和高准确率的要求,本文提出一种基于多尺度多层次特征融合和轻量化卷积神经网络的结直肠息肉检测模型。
3.1 对比实验结果及讨论
在独立测试集上调整置信度阈值,设置初始阈值为0.05,以0.05的步长逐渐增加评估模型在不同阈值下的检测性能,并考察pre、rec、f1和mAP@0.5指标的变化情况。结果显示,最佳结果为阈值0.05时,pre为0.998 2,rec为 0.998 8,f1为 0.998 4,mAP@0.5达到0.995 3,混淆矩阵的详细信息如图8所示。

为进一步验证模型性能,本模型在原有测试集基础上,进一步增加了多个公开数据集的对比实验。在测试集上与具有先进性能的YOLO系列v8版本的小模型(YOLO v8-small,YOLOv8s)、YOLO系列v8版本的微模型(YOLO v8-nano,YOLOv8n),以及YOLO系列v5版的小模型(YOLO v5-small,YOLOv5s),以及YOLO系列v5版本的微模型(YOLO v5-nano,YOLOv5n)算法进行对比,结果表明本研究提出模型在性能上优于现有其他模型。本模型在挪威癌症协会与挪威科技大学联合构建的克瓦希尔分割数据(Kvasir segmentation dataset,Kvasir-SEG)公开数据集[27-28]上测试的结果表明,与分别增加传统注意力机制(YOLOv5+注意力机制)与挤压和激励网络(squeeze and excitation networks,SE)注意力模块(YOLOv5+SE注意力模块)的模型对比,本模型可达到最高的性能表现。此外,在西班牙巴塞罗那大学与加泰罗尼亚视觉中心(center for visual computing,CVC)联合构建的公开数据库中的结肠镜视频数据库(colonoscopy video clips database,Clinic DB)(CVC-Clinic DB)[29-30]上测试的结果表明,本研究所提出模型在性能指标上优于同为单阶段目标检测算法的SSD和掩膜R-CNN(Mask R-CNN),实验结果如图9所示。

本文模型选取不同计算机处理器对帧率进行评测。测试集的5 755张图像,在英特尔i5中央处理器(i5-8350U,Intel Inc.,美国)上帧率为4.55 帧/s,在英伟达特斯拉V100图形处理器(Tesla V100,Nvidia Inc.,美国)上帧率为74 帧/s,实验结果显示在不同计算机处理器上都具有了较快的推理能力。
3.2 消融实验结果及讨论
本模型引入了SPP模块用于多尺度特征提取,采用FPN模块对骨干网络中多层次的特征图进行融合,引入基于SAM模块的注意力机制,以增强对息肉边界和细节特征的融合效果。同时,引入PPA模块,用于在不同层级的特征图中寻找重要特征并进行整合。为了深入理解和验证研究的关键组成部分对整体结果的贡献,将YOLOX-S结合FPN构建的模块(YOLOX-S+FPN)作为基线模型,分别添加SPP、SAM、PPA模块构建:YOLOX-S+FPN模块+SPP模块、YOLOX-S+FPN模块+SAM模块、YOLOX-S+FPN模块+PPA模块。然后,针对SPP、SAM和PPA等模块进行消融实验,结果如表2所示。

3.3 超参数敏感性实验结果及讨论
为进一步探索本研究所提出模型的最优参数,本研究针对损失函数中的超参数值λ的选择进行超参数敏感性实验。实验中λ最小值从0.1取值,步长为0.05,在测试集上进行实验,如图10所示,结果显示在λ取值为1时,模型的综合性能达到最高,并且能够较好地平衡分类与回归任务,因此在训练中取值固定为1。

4 总结
本研究提出了基于轻量化卷积神经网络的结直肠息肉检测模型,通过利用SPP、FPN、SAM和PPA模块进行多尺度多层次特征融合,性能得到较大提升。在独立测试集上取得pre为0.998 2,rec为0.998 8,f1为0.998 4以及mAP@0.5为0.995 3的性能。同时,模型的参数量为9.08 M,在Tesla V100计算显卡的测试平台上帧率达到74 帧/s。
本文所提出的模型具有体量小、精度高且速度快的特点,适合在临床场景中进行快速部署和应用。未来,本研究拟从模型通用性、无监督训练角度,进一步开展相关研究,提升模型的通用性以及泛化性。综上所述,本研究为结直肠息肉图像的检测与诊断提供了关键工具,有助于提高检测过程中的精准度和效率。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献说明:李奕扬主要负责整体实验的设计、算法修改及论文撰写;赵佳漪主要负责医学背景指导、实验数据分析及论文撰写;余若伊主要负责实验数据的分析、数据处理方案设计及论文撰写;刘辉翔负责数据处理与论文修订;梁爽负责整体实验的设计、算法技术指导与论文修订;谷宇负责实验概念设计、论文修订。
0 引言
结直肠癌是世界范围内的第三大恶性肿瘤,而中国结直肠癌发生率、死亡率均处于世界较高水平。据统计,2020年中国结直肠癌发病人数55.5万例,位列中国各癌种第二位,占中国总癌种发病人数的12.2%,占全球该类癌症发病人数的28.8%;总死亡人数28.6万例,位列中国各癌种死亡人数的第五位,占中国总癌种死亡人数的9.5%,占全球该类癌症死亡人数的30.6%[1]。80%~95%的结直肠癌是在多基因、多机制的作用下由结直肠息肉经过约5~10年演变而来[2]。结直肠息肉主要分为腺瘤型息肉和增生型息肉,腺瘤型的致癌率远高于增生型[3],因此早期息肉的准确分型对于后续治疗计划的制定至关重要[4]。
虽然结直肠息肉检查方法有多种,但结肠镜检查是诊断肠道病变的“金标准”,在息肉检出与诊断中较为有效[5]。研究显示,平均腺瘤检出率每增加1.0%,结直肠癌发生风险可降低3.0%[6]。但结肠镜检查可能受肠道准备的清洁程度[7]、退镜时间[8]以及内镜医师的技术水平等因素影响[9-10]。Bretthauer等[11]在多中心大样本临床数据上的研究表明,不同内镜医师之间由于主观因素影响,腺瘤检出率差异高达10倍。尽管有研究尝试通过提高内镜操作技术和肠道准备质量来提高息肉和腺瘤的检出率,但结果并不理想[12]。因此,目前亟需一种更客观且自动化的息肉检测方法。
在医学图像检测识别中,人工智能(artificial intelligence,AI)辅助诊断已获得广泛应用[13]。通过AI辅助检测,可以有效提升息肉检出率[14-15]。研究显示,当借助AI辅助进行人工诊断时,息肉检出率比纯人工检测显著提升[16]。AI的深度学习目标检测算法具有强大的表征学习能力和拟合能力,应用于息肉检测已取得了一定效果[17]。根据是否存在候选区域生成网络,目标检测算法主要分为两种类型:两阶段目标检测算法和单阶段目标检测算法[18]。两阶段目标检测算法步骤为:先提取候选区域,再对每个区域进行分类和定位。例如,有研究采用区域卷积神经网络(region-based convolutional neural network,R-CNN)在结直肠息肉的检测方面取得了显著的进步[19],但在检测速度上仍不能满足临床检验的需求[20]。而单阶段目标检测算法通过将目标分类和边界框回归两个任务合并为一个步骤,可以更高效地进行目标检测。现有的单阶段目标检测算法,如“你只需看一次(you only look once,YOLO)”[21]、单次多框检测器(single shot multi-box detector,SSD)[22]等,检测速度较快,初步实现了实时目标的检测;但在检测小目标时,由于目标所占的像素区域较少,随着网络深度的加深容易丢失细节特征,导致算法精度受限[23]。此外,现有基于轻量化目标检测模型难以同时满足小体量和较高准确率的需要[24],对临床场景下硬件计算能力具有较高要求。
为了解决以上问题,本文拟提出基于轻量化卷积神经网络的结直肠息肉检测算法,以期在结直肠息肉检测领域实现以下目标:
(1)本研究拟通过在主干网络中引入空间金字塔池化(spatial pyramid pooling,SPP),增强模型在不同空间尺度下的特征提取能力以及整合能力。
(2)本研究拟在特征网络融合部分,采用特征金字塔网络(feature pyramid network,FPN),通过多层次特征交互的网络结构加强模型的表达能力,在此基础上引入空间注意力模块(spatial attention module,SAM),对图像中的息肉病变区域赋予更高的注意权重,以提高模型感知能力。
(3)本研究拟引入位置模式注意力(positional pattern attention,PPA)模块进行信息聚合,以期降低目标检测模型参数规模,实现低配置下保持较快检测速度和高准确度的特性。
1 方法
1.1 整体流程
结直肠息肉的形状和颜色多样,表面特点不一,在内镜下易产生噪声和伪影[25],传统目标检测方法在识别过程中易受噪声影响产生检测误差[26]。针对上述问题,本文提出一种基于轻量化卷积神经网络的结直肠息肉检测模型。如图1所示,本研究所提出模型以YOLO系列X版本小模型(YOLO X-small,YOLOX-S)的目标检测模块作为检测框架的基准模型。

为实现结直肠息肉图像的特征有效提取,在主干网络部分,本研究选择53层深度卷积神经网络架构作为特征提取模块,并在此基础上增加SPP模块整合输出特征;特征融合网络中,本研究采用 FPN 模块对骨干网络提取的不同尺度的特征图进行融合;本研究采用SAM模块,通过注意力机制增强模型对息肉图像边界和上下文细节的表示能力。最后,本研究通过增加PPA模块,在不同层级的特征图中自适应挖掘显著特征并实现聚合,以期提高模型的检测性能。在预测部分,模型通过解耦头并行处理分类和回归任务,最终输出待检测目标息肉的边界框坐标及息肉分型等信息。
1.2 基于SPP模块提取多尺度特征
本模型引入SPP模块解决图像尺寸和目标大小变化的问题,实现在不同特征图尺寸上的特征池化,且有效减少了模型的参数数量。使用SPP模块进行目标检测时,可以对不同大小的池化特征图进行扁平化,得到固定大小的向量。如图2所示,扁平化后的向量通过级联方式形成高层次特征表示,从而更好地捕捉目标的细节和上下文信息。如图3所示,该模块的引入可以提高模型对不同尺寸息肉图像进行特征提取时的适应能力。


1.3 利用FPN多尺度特征融合
结直肠息肉的表面存在许多血管结构或不规则面,基于模型的骨干网络进行图像特征提取过程时,常常会忽略掉一些尺寸较小的细节特征,从而导致漏检或误检的出现。本研究在特征融合网络中引入FPN模块以提取不同尺度的特征,并利用不同层级的特征进行目标检测。本研究构建了基于自底向上的图像金字塔,并通过在底层特征图与高层特征图间建立横向连接,以保留底层特征的细节信息,并充分利用高层特征的语义信息。本研究还引入了自顶向下的跨尺度连接将高层特征图融合到底层特征图中,使特征图具有更丰富的上下文和语义信息,在多尺度下对图像进行目标检测,从而提高检测的准确度。
1.4 引入SAM增强感知能力
早期结直肠增生尚未形成明显息肉时,其颜色、纹理与正常肠组织相近,传统算法难以对其进行有效区分。为有效应对此类场景,本模型引入了SAM模块,增强模型对重要区域的关注度,提升其对结直肠息肉的感知能力。
如图4所示,SAM模块由特征映射和空间注意力机制两部分组成,将高(height,H)(符号记为H)、宽(width,W)(符号记为W)、通道数(channels,C)(符号记为C)的特征图作为输入,通过特征映射将其转换为高维特征表示,采用卷积、池化和激活函数提取输入数据的特征。SAM模块的核心是空间注意力机制,其根据特定的注意力方式对特征映射中的每个位置进行权重计算,有效提高了模型对结直肠息肉及其边缘像素的关注程度,同时忽略背景中的无用信息。

1.5 使用PPA模块进行信息聚合
本研究引入了PPA模块,以期增强目标检测任务的性能并增强泛化能力。输入的图像在经过多层卷积和池化的操作后,产生不同尺度的特征图。本研究首先将特征图分割成多个块,并在每个块上应用注意力机制,采用PPA模块在不同层级的特征图中自适应地寻找重要特征并进行整合。模型的注意力机制通过计算每个特征块内特征的全局平均池化值与全局最大池化值之间的比例,获得该特征块的重要性系数。根据重要性系数再对每个特征块进行加权平均,最后得到了经过注意力机制筛选和聚合后的特征。通过整合不同层级的特征,并利用注意力机制选择最重要的特征,PPA模块保留了原始特征的丰富表示,有效提升了模型的检测性能,增强了泛化能力。
1.6 任务网络头部设计
本研究在任务网络头部设计使用解耦机制,将输出端的H × W × 256的特征图解耦为对应目标的分类、回归和交并比(intersection over union,IOU)特征并完成相应的任务,如图5所示。

目标分类分支中采用卷积层和全连接层构建分类网络,将卷积特征图转换为目标类别预测。此分支中使用交叉熵损失函数衡量分类预测的准确性,计算预测标签和真实标签之间的差异, 如式(1)所示:
![]() |
其中,Lcls为分类损失函数,y为真实标签,p为模型预测出的概率值。位置回归分支通过卷积层和全连接层将卷积特征图转换为边界框的位置信息(边界框的中心坐标、宽度和高度),并采用平滑L1损失函数来衡量预测边界框与真实边界框之间的位置差异,如式(2)所示:
![]() |
其中Lreg为回归损失函数,x是预测值与真实值之间的差异。在预测阶段,对解耦头的输出进行归一化操作,得到每个特征点属于每个类别的概率。模型利用对象置信度筛选出包含物体的预测框,根据回归参数调整框的位置,为每个预测框分配最高置信度的类别。模型的损失函数L采用跨阶段局部整合方法将分类和回归任务的损失函数综合,如式(3)所示:
![]() |
其中,λ为超参数,本文设置为1。
2 数据及参数设置
2.1 数据集介绍
本研究采用的数据集来自2023年“第八届全国大学生生物医学工程创新设计竞赛”,如图6所示,其提供了具有无息肉、增生性息肉、腺瘤性息肉等三种类别的28 773 张直肠息肉内镜图像,可公开获取。本研究依照交叉验证的方式,为保证数据独立互斥,将实验数据集按照6:2:2的比例划分为训练集、验证集与测试集,数据分布如表1所示。


2.2 参数设置及指标评价
如图7所示,本研究在结直肠息肉自动检测任务中对原始图像采用增加噪声、图像翻转、随机剪裁、颜色变化和高斯模糊等数据增强方式增加训练样本量,采用学习率调度器固定步长衰减(step learning rate,stepLR)策略在训练过程中动态调整学习率,学习率初始值为1 × 10−4,训练批次大小为16,轮次为200,并利用随机梯度下降(stochastic gradient descent,SGD)优化器更新模型的参数,每隔10轮次对模型进行评估,保存当前最优模型权重。

本研究分别采用精度(precision,pre)、召回率(recall,rec)、F1分数(f1-score, f1),以及平均精确度均值(mean average precision,mAP)在IOU阈值为0.5时的值(符号记为mAP@0.5)等指标评估模型的性能,如式(4)~式(6)所示:
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)为正样本分类正确的数量;假阳性(false positive,FP)为正样本分类错误的数量;真阴性(true negative,TN)为负样本分类正确的数量;假阴性(false ngative, FN)为负样本分类错误的数量。
mAP@0.5的计算需要先计算IOU(符号记为IOU),如式(7)所示:
![]() |
其中,A为预测框面积,B为真实框面积。若IOU > 0.5,则该预测框为TP,否则为FP;若没有预测框IOU > 0.5,则为FN。对于息肉的每个类别计算平均精确度(average precision,AP)(符号记为AP),如式(8)所示:
![]() |
其中,r为rec值,是在F ≥
时的最大pre值。最后,根据各类别的AP计算mAP(符号记为mAP),如式(9)所示:
![]() |
其中,num为类别数。
为进一步测试模型运行速度,使用帧率(frames per second,FPS)(符号记为FPS)作为模型推理速度的评价指标,计算公式如式(10)所示:
![]() |
其中,N为预测图像数量,t为总预测时间。
3 结果及讨论
结直肠息肉的检测在结直肠癌的早期防治中具有关键作用,肠镜是临床诊断肠道病变检测的“金标准”,但是肠镜结果易受到肠道准备的清洁程度、退镜时间以及医师主观因素的影响,导致检测准确性下降。因此,为满足临床对于检测模型的小体量和高准确率的要求,本文提出一种基于多尺度多层次特征融合和轻量化卷积神经网络的结直肠息肉检测模型。
3.1 对比实验结果及讨论
在独立测试集上调整置信度阈值,设置初始阈值为0.05,以0.05的步长逐渐增加评估模型在不同阈值下的检测性能,并考察pre、rec、f1和mAP@0.5指标的变化情况。结果显示,最佳结果为阈值0.05时,pre为0.998 2,rec为 0.998 8,f1为 0.998 4,mAP@0.5达到0.995 3,混淆矩阵的详细信息如图8所示。

为进一步验证模型性能,本模型在原有测试集基础上,进一步增加了多个公开数据集的对比实验。在测试集上与具有先进性能的YOLO系列v8版本的小模型(YOLO v8-small,YOLOv8s)、YOLO系列v8版本的微模型(YOLO v8-nano,YOLOv8n),以及YOLO系列v5版的小模型(YOLO v5-small,YOLOv5s),以及YOLO系列v5版本的微模型(YOLO v5-nano,YOLOv5n)算法进行对比,结果表明本研究提出模型在性能上优于现有其他模型。本模型在挪威癌症协会与挪威科技大学联合构建的克瓦希尔分割数据(Kvasir segmentation dataset,Kvasir-SEG)公开数据集[27-28]上测试的结果表明,与分别增加传统注意力机制(YOLOv5+注意力机制)与挤压和激励网络(squeeze and excitation networks,SE)注意力模块(YOLOv5+SE注意力模块)的模型对比,本模型可达到最高的性能表现。此外,在西班牙巴塞罗那大学与加泰罗尼亚视觉中心(center for visual computing,CVC)联合构建的公开数据库中的结肠镜视频数据库(colonoscopy video clips database,Clinic DB)(CVC-Clinic DB)[29-30]上测试的结果表明,本研究所提出模型在性能指标上优于同为单阶段目标检测算法的SSD和掩膜R-CNN(Mask R-CNN),实验结果如图9所示。

本文模型选取不同计算机处理器对帧率进行评测。测试集的5 755张图像,在英特尔i5中央处理器(i5-8350U,Intel Inc.,美国)上帧率为4.55 帧/s,在英伟达特斯拉V100图形处理器(Tesla V100,Nvidia Inc.,美国)上帧率为74 帧/s,实验结果显示在不同计算机处理器上都具有了较快的推理能力。
3.2 消融实验结果及讨论
本模型引入了SPP模块用于多尺度特征提取,采用FPN模块对骨干网络中多层次的特征图进行融合,引入基于SAM模块的注意力机制,以增强对息肉边界和细节特征的融合效果。同时,引入PPA模块,用于在不同层级的特征图中寻找重要特征并进行整合。为了深入理解和验证研究的关键组成部分对整体结果的贡献,将YOLOX-S结合FPN构建的模块(YOLOX-S+FPN)作为基线模型,分别添加SPP、SAM、PPA模块构建:YOLOX-S+FPN模块+SPP模块、YOLOX-S+FPN模块+SAM模块、YOLOX-S+FPN模块+PPA模块。然后,针对SPP、SAM和PPA等模块进行消融实验,结果如表2所示。

3.3 超参数敏感性实验结果及讨论
为进一步探索本研究所提出模型的最优参数,本研究针对损失函数中的超参数值λ的选择进行超参数敏感性实验。实验中λ最小值从0.1取值,步长为0.05,在测试集上进行实验,如图10所示,结果显示在λ取值为1时,模型的综合性能达到最高,并且能够较好地平衡分类与回归任务,因此在训练中取值固定为1。

4 总结
本研究提出了基于轻量化卷积神经网络的结直肠息肉检测模型,通过利用SPP、FPN、SAM和PPA模块进行多尺度多层次特征融合,性能得到较大提升。在独立测试集上取得pre为0.998 2,rec为0.998 8,f1为0.998 4以及mAP@0.5为0.995 3的性能。同时,模型的参数量为9.08 M,在Tesla V100计算显卡的测试平台上帧率达到74 帧/s。
本文所提出的模型具有体量小、精度高且速度快的特点,适合在临床场景中进行快速部署和应用。未来,本研究拟从模型通用性、无监督训练角度,进一步开展相关研究,提升模型的通用性以及泛化性。综上所述,本研究为结直肠息肉图像的检测与诊断提供了关键工具,有助于提高检测过程中的精准度和效率。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献说明:李奕扬主要负责整体实验的设计、算法修改及论文撰写;赵佳漪主要负责医学背景指导、实验数据分析及论文撰写;余若伊主要负责实验数据的分析、数据处理方案设计及论文撰写;刘辉翔负责数据处理与论文修订;梁爽负责整体实验的设计、算法技术指导与论文修订;谷宇负责实验概念设计、论文修订。