南京大学学报(自然科学), 2024, 60(1): 26-37 doi: 10.13232/j.cnki.jnju.2024.01.004

基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统

唐蕴芯1, 廖梅2, 张艳玲,2, 张建,1,4, 陈皓3, 王炜,1,4

1.南京大学物理学院, 南京, 210093

2.中山大学附属第三医院超声科, 广州, 510630

3.杭州精康科技, 杭州, 310000

4.南京大学脑科学研究院, 南京, 210093

Breast tumor classification based on video stream and self⁃supervised contrastive learning

Tang Yunxin1, Liao Mei2, Zhang Yanling,2, Zhang Jian,1,4, Chen Hao3, Wang Wei,1,4

1.School of Physics,Nanjing University,Nanjing,210093,China

2.Department of Ultrasound,Third Affiliated Hospital,Sun Yat⁃sen University,Guangzhou,510630,China

3.Precision Care Technology,Hangzhou,310000,China

4.Institute for Brain Sciences,Nanjing University,Nanjing,210093,China

通讯作者: E⁃mail:hnsyyanling@163.comjzhang@nju.edu.cnwangwei@nju.edu.cn

收稿日期: 2023-11-04  

基金资助: 国家自然科学基金.  11774158

Received: 2023-11-04  

摘要

乳腺超声广泛应用于乳腺肿瘤诊断,基于深度学习的肿瘤良恶性分类模型可以有效地辅助医生诊断,提高效率,降低误诊率,然而,由于标注数据的高成本问题,限制了此类模型的开发和应用.为此,从乳腺超声视频中构建了无标注预训练数据集,包含11805个目标样本数据和动态生成的正、负样本数据集(样本量分别为188880和1310355个).基于该数据集,搭建了三胞胎网络并进行了自监督对比学习.此外,还发展了Hard Negative Mining和Hard Positive Mining方法来选取困难的正负样本构建对比损失函数,加快模型收敛.参数迁移后,将三胞胎网络在SYU数据集上进行微调和测试.实验结果表明,与基于ImageNet预训练的若干SOTA模型以及与前人针对乳腺超声的多视图对比模型相比,提出的三胞胎网络模型具有更强的泛化能力和更好的分类性能.此外,还测试了模型对标注数据量的需求下限,发现仅使用96个标注数据,模型性能即可达到AUC=0.901,敏感度为0.835.

关键词: 乳腺超声 ; 深度学习 ; 自监督学习 ; 对比学习 ; 预训练模型 ; 三胞胎网络

PDF (1299KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

唐蕴芯, 廖梅, 张艳玲, 张建, 陈皓, 王炜. 基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统. 南京大学学报(自然科学)[J], 2024, 60(1): 26-37 doi:10.13232/j.cnki.jnju.2024.01.004

Tang Yunxin, Liao Mei, Zhang Yanling, Zhang Jian, Chen Hao, Wang Wei. Breast tumor classification based on video stream and self⁃supervised contrastive learning. Journal of nanjing University[J], 2024, 60(1): 26-37 doi:10.13232/j.cnki.jnju.2024.01.004

Abstact: Breast ultrasound is widely used in the diagnosis of breast tumors. Deep learning⁃based tumor benign⁃malignant classification models effectively assist doctors in diagnosis,improving efficiency and reducing misdiagnosis rates,among other benefits. However,the high cost of annotated data limits the development and application of such models. In this study,we construct an unlabeled pretraining dataset from breast ultrasound videos,which includes 11805 target samples and dynamically generated positive and negative sample datasets (with sample sizes of 188880 and 1310355,respectively). Based on this dataset,we build a triplet network and conduct self⁃supervised contrastive learning. Additionally,we develope Hard Negative Mining and Hard Positive Mining methods to select challenging positive and negative samples for constructing the contrastive loss function,accelerating model convergence. After parameter transfer,the triplet network is fine⁃tuned and tested on the SYU dataset. Experimental results demonstrate that the triplet network model developed in this study exhibits stronger generalization capability and better classification performance compared to several state⁃of⁃the⁃art models pretrained on ImageNet and previous multi⁃view contrastive models for breast ultrasound. Furthermore,we test the minimum requirement of annotated data for the model and find that using only 96 annotated data points achieves a performance with an AUC=0.901 and sensitivity of 0.835.

作为最常用的成像模态之一,超声(Ultrasound,US)是临床上不可或缺的扫查与诊断工具,具有无损伤、无放射性、低成本等优点.在当前的临床实践中,医学超声在各个专业科室得到了应用,如心电图、乳腺超声、腹部超声、经直肠超声、心血管超声以及产前诊断超声,尤其广泛应用于妇产科1.一次高质量的超声成像诊断,不仅要求超声图像包含的噪声和伪影少,还要求机器操作者和诊断医生具有丰富的临床经验.近年来,为了减轻医生负担,获得更客观、更准确和更高时效性的诊断,人们致力于开发先进的自动化超声图像识别方法作为医生的辅助工具.

深度学习(Deep Learning,DL)是机器学习的一个分支,是一种表征学习方法,能直接从原始数据自动学习不同层次的抽象特征,被广泛应用于计算机自动图像识别领域,如分割、分类、目标检测等等,也包含医疗影像的自动化识别.医疗影像包括CT (Computed Tomography)影片、医学超声图像、核医学成像、核磁共振成像等,针对特定疾病的诊断算法层出不穷,常见的有肺结核2-3、肺结节4-5、乳腺结节6-7和乳腺癌8-9等.目前在图像自动识别领域中常用的深度学习网络有两种,一种是深度卷积神经网络(Convolutional Neural Networks,CNN),另一种是新兴代表ViT(Vision Transformer)10,但这些深度网络的参数量都非常大,一般以百万(Mega,M)或十亿(Giga,G)为单位,这要求用于训练网络的数据量要足够大,否则深度学习网络会出现过拟合现象,影响模型性能.然而,目前在乳腺超声领域上,公开的有标签数据集只有BUSI,DatasetB和BUSIS.其中,BUSI数据集11由Al⁃Dhabyani团队从600个病人中采集,包含133张无肿瘤图像、437张恶性肿瘤图像和210张良性肿瘤图像,图像平均像素为500×500;DatasetB数据集12来自西班牙萨巴德尔Parc Tauli公司的UDIAT诊断中心,一共有163张图像,其中良性110张,恶性53张;BUSIS数据集13由哈尔滨医科大学附属第二医院、青岛大学附属医院和河北医科大学第二医院使用多种超声设备采集,从26~78岁女性中采集到562张乳腺超声图像.乳腺超声数据集的严重稀缺,给乳腺肿瘤自动识别任务带来巨大的挑战.

为了解决上述问题,本文采用自监督对比学习14-15和迁移学习16-17两种技术,将训练分为预训练和微调阶段.和监督学习相比,自监督学习具有无须标注训练样本的优势,能保证大量训练数据的低成本获取,结合大容量的深度学习模型可以发挥巨大的潜力.本文在预训练阶段利用自监督对比学习,从一个无标签的乳腺超声视频数据集中学习通用性知识,再将其迁移到下游的乳腺病变良恶性分类任务中.首先,构建一个无标签乳腺超声视频数据集,包含来自200位病人的1360个乳腺超声扫描视频,视频长度为8~10 s,从中选出11805例目标样本图片,并对每个目标样本动态生成相应的正样本和负样本.将上述样本用于对比学习训练一个三胞胎网络.在预训练阶段,提出多近邻采样及平均化方法来扩充正样本数量,并基于Hard Negative Mining和Hard Positive Mining构建对比损失函数Hard Triplet Loss以挑选困难正负样本,加快模型收敛.预训练完成后,把网络参数迁移到下游的乳腺肿瘤分类任务中,针对一个小的人工标注数据集进行微调.最后报告模型分类性能,并和基于ImageNet的迁移学习模型和其他SOTA (State⁃of⁃The⁃Art)模型进行了比较.

1 自监督对比学习网络模型

本文提出的模型包括两个部分,如图1所示.虚线上部是一个三胞胎网络(Triplet Network),负责利用视频相邻帧进行预训练.预训练过程中,通过优化卷积网络,使相似样本对应的特征在特征空间具有较近的距离,不相似样本的距离较远.虚线下部是一分类网络,其卷积网络部分与三胞胎网络共享参数,负责对预训练后的模型进行微调.

图1

图1   三胞胎模型的预训练(上半部分)与微调(下半部分)

Fig.1   The pretraining (upper part) and finetuning (lower part) of Triplet Network


1.1 自监督对比学习模型及迁移学习

1.1.1 三胞胎网络Triplet Network

采用三胞胎网络(Triplet Network),其输入分别是目标样本X正样X+和负样本X-,其中,目标样本X是从乳腺超声视频中任意截取的一帧,正样X+是目标样本X的相邻帧,负样本X-一般来自不同视频.目标样本和正负样本共同组成一个训练批次的预训练样本集,将其输入三胞胎网络,提取图像的特征,最后输出1024维特征向量fX+,fXfX-.图1所示,这些特征向量对应1024维特征空间中的特征点.

三胞胎网络本质上是三个共享参数的深度卷积网络.其中,深度卷积网络采用密集型网络DenseNet18,包括一个7×7的卷积层、一个3×3的池化层和四个Dense Block,相邻两个Dense Block之间插入Transition Layer,最后是全局平均池化和Softmax分类器.按神经网络的层数可以分为DenseNet121,DenseNet161,DenseNet169和DenseNet201等.

1.1.2 损失函数

优化预训练的基本思想为在特征空间中减小目标样本点与正样本点的距离,加大目标样本点与负样本点的距离.基于此优化目标,本文采用两种损失函数并进行了比较.一种是目前常用的InfoNCE Loss,另一种是本文新发展的Hard Triplet Loss.

InfoNCE Loss是一种比较常用的解决多分类问题的对比学习损失函数19-20,由解决二分类问题NCE Loss(Noise Contrastive Estimation)损失函数演变而来21.InfoNCE Loss的计算如下19

InfoNCE Loss=-lgi=1PexpCosinefXfXi+/τj=1P+KexpCosinefXfXj/τ

其中,τ是温度超参数,控制模型对负样本的区分度;Cosine是余弦相似度,分别计算目标样本与正负样本特征向量的相似性;PK分别是正、负样本的总数;分子表示目标样本和所有正样本特征向量相似度的总和,分母表示目标样本和所有正负样本相似度的总和.目标样本和正样本的相似度越大,和负样本的相似度越小,InfoNCE Loss就越小,表明预训练越好.

经典的Triplet Loss定义如下:

Triplet Loss=max0,DfX,fX+-DfX,fX-+M

其中,M是自定义优化阈值,M0;D是特征距离,比较M值与正负样本之间特征距离大小.当DfX,fX--DfX,fX+M,正负样本的特征距离大于自定义的阈值MTriplet Loss=0,则模型不需要梯度下降、更新参数;当DfX,fX--DfX,fX+<M,正负样本的特征距离小于自定义的阈值MTriplet Loss>0,则Triplet Loss通过惩罚进一步减小目标样本点和正样本点的距离,加大目标样本点与负样本点的距离.本文采用的特征距离是余弦相似度距离,定义如下:

DfX,fX+=1-fX,fX+fXfX+
DfX,fX-=1-fX,fX-fXfX-

对于对比学习,每次训练选取的正负样本越多,模型的泛化性就越强1922,但一次性把大量图像输入三胞胎网络,对所有图像计算对比损失,进行梯度下降、更新参数,对机器的存储和计算要求很高,模型的收敛速度会非常慢.因此,本文在式(2)的基础上发展了Hard Negative Mining和Hard Positive Mining.

图1所示,每个样本经过深度网络被映射到1024维特征空间上后,困难的正负样本被挑选出来参与训练.具体地,选择距离目标样本最远的P个正样本以及距离最近的K个负样本进行训练,构建新的对比损失函数Hard Triplet Loss:

Hard Triplet Loss=i=1Kmax0,DfX,Mean+-DfX,fXi-+MK+λ2W22

其中,W是预训练模型权重,λL2正则化系数;Mean+=j=1PfXj+P,代表困难正样本均值点.

计算每个困难负样本与Mean+的Triplet Loss,Hard Triplet Loss是这些困难样本的Triplet Loss的平均.本文中M=0.5,P=K=3,λ=0.0005,为了提高预训练模型的泛化性能,使用带动量的随机梯度下降方法,并使用余弦退火方法平缓下降学习率,下降周期为200,最小学习率eta_min限制为0.0005.

1.2 参数迁移后微调

将预训练得到的深度学习网络迁移到下游的乳腺超声肿瘤良恶性分类任务中.网络的微调过程具体为:固定前面网络层参数不变,优化后面部分层参数,并为模型添加一个新的全连接层和Softmax层,最后输出判断为良性、恶性的概率.

2 数据集及训练方法

2.1 预训练数据集与SYU数据集

进行微调和测试的数据集包括一个预训练数据集和一个来自中山大学附属第三医院(中大三院)的SYU数据集.其中,预训练数据集包含目标样本数据集、正样本数据集和负样本数据集.具体如表1所示.

表1   预训练数据集和SYU数据集的相关信息

Table 1  Statistics of pre⁃training datasets and SYU datasets

数据集结构病人数视频数相邻帧数图片总数图片数/批次规范尺寸(像素)出处
预训练数据集目标样本数据集20013605118051224×224视频
正样本数据集20013605188880(动态生成)16224×224相邻帧
负样本数据集200136051310355(动态生成)111224×224不同病人不同视频
SYU数据集微调数据集66--32064224×224中大三院
测试数据集66--8064224×224中大三院

新窗口打开| 下载CSV


2.1.1 目标样本数据集

表1所示,目标样本数据集从200个病人的1360个乳腺超声视频中构建.目标样本数据集构建步骤如下.

(1)首先,从每个病人的每个视频中每隔五帧截取一张图像,再利用我们之前工作得到的一个DenseUNet模型23来判断截取的图像有无肿瘤.

(2)判断为有肿瘤的图像暂时保留,待同一个视频里面有肿瘤的图像全部筛选完毕,对比所有相邻的图像,调用skimage库的structural_similarity方法计算相邻两张图像的相似度.相似度大于0.35则保存两张图像,相似度小于0.35则抛弃后一时刻的图像.不断重复步骤(2),直到同一个视频里面所有图像的相似度都大于0.35.

(3)所有视频得到的图像共同构成一个目标样本数据集,共11805张,经预处理后统一尺寸为224像素×224像素.图2展示了目标样本数据集中同一视频相邻的三张图像、来自相同病人不同视频的三张图像以及来自不同病人不同视频的五张图像.

图2

图2   目标样本数据集和SYU数据集的部分乳腺超声图像

Fig.2   Examples of breast ultrasound images from target sample dataset and SYU dataset


2.1.2 正负样本数据集

表1所示,正负样本数据集根据目标样本数据集动态生成.具体步骤为:以目标样本为锚点,从相邻帧选取正样本,从不同病人不同视频随机选取负样本.不考虑从相同病人的其他视频选取负样本,原因是相同病人不同视频拍摄的肿瘤相同,拍摄角度和肿瘤呈现的形态虽然不同,但特征信息相似.

数据增强是一种常见的数据扩增技术,可以对现有数据应用一组变换来生成新样本,如平移、旋转、变形、缩放、颜色空间变换、裁剪等等,目标是生成更多样本以创建更大的数据集.一般地,在对比学习中,大量正样本可通过数据增强生成,但乳腺超声图像对数据增强操作十分敏感,除了小角度旋转和左右翻转操作,其他数据增强的手段均会破坏肿瘤关键的特征信息.为了提高正样本的数量,保证正样本的采样质量,本文提出多近邻采样及平均化方法,具体如图3所示.

图3

图3   正负样本的采样过程

Fig.3   Positives and negatives sampling


多近邻采样及平均化方法如下.

(1)以目标样本为锚点,找到左右相邻n帧、2n帧等间隔的图像,对目标样本和相邻帧进行小角度旋转和左右翻转操作,即图3中的AUG1和AUG2,相邻帧与AUG1,AUG2组成第一批次正样本.

(2)对第一批次中的相邻帧做均值化处理.均值化处理能进一步突出肿瘤的关键特征,也能去除残留的噪声.这些相邻帧均值化图像加上其数据扩增图像组成第二批次正样本,如图3中相邻帧均值化+AUG1+AUG2所示.

(3)对第二批次均值化图像进行二次均值化,并进行数据扩增,得到第三批次正样本,如图3中相邻帧二次均值化+AUG1+AUG2所示.

由此得到的正样本一共是16个,如表1所示,1个目标样本、16个正样本和111个随机采样的负样本组成一个批次进行训练,规定一个批次的样本数是2的指数,如64,128等.预训练过程中正负样本采样总量分别是188880和1310355个.间隔单位n=5,相邻帧间隔取5,10,15.

2.1.3 SYU数据集

表1所示,SYU数据集来自中大三院23-24,包括400张乳腺超声图像,其中175张良性,225张恶性,经预处理后统一尺寸为224像素×224像素.按照五折交叉验证方法把SYU数据集随机分成两个独立的微调数据集和测试数据集,微调数据集含乳腺超声图像320张,测试数据集含乳腺超声图像80张.图2展示了SYU数据集的部分乳腺超声图像.

2.1.4 ImageNet数据集

ImageNet是一个用于计算机视觉识别研究的大型可视化数据集,由斯坦福大学李飞飞教授带领创建25,包含14197122张图像和21841个Synset索引,常用作评估图像分类算法性能的基准.基于ImageNet数据集,目前已有一大批有监督的预训练模型,如ResNet,DenseNet,GoogleNet等,这些模型提高了图像分类26-27、目标检测28-29、图像分割30、图像描述31-32等多种任务的性能.

2.2 数据预处理

采用模糊增强和双边滤波两种数据预处理方法来降低噪声,增强信噪比.其中,模糊增强利用大津法(OTSU)33生成二值化图像,增强肿瘤边缘特征;双边滤波采用加权平均去掉原图尖锐噪声,保留肿瘤的边界.但这两种数据增强均会丢失或削弱肿瘤的有用信息,因此原始图像也予以保留.将原始图像和两种数据增强的图像在通道维度上堆叠在一起,组成三通道图片输入模型.

2.3 模型的训练及评估

训练了四个分别以DenseNet121,DenseNet161,DenseNet169和DenseNet20118为骨架的三胞胎网络.在预训练阶段,输入图像的尺寸统一为224像素×224像素,数值归一化到0~1;网络采用带动量的随机梯度下降作为权值更新算法,初始学习率均为1×10-3;使用余弦退火方法平缓下降学习率,下降周期为200,最小学习率eta_min限制为0.0005.预训练一共包含200个epoch,每个epoch依次从11805张图像中选出目标样本,通过多近邻采样及平均化方法得到每个目标样本对应的正样本数据集,从不同病人视频中随机挑选负样本集,把目标样本、正负样本数据集组成一个训练批次,输入三胞胎网络中完成一次迭代训练.实验规定一个epoch对预训练数据集里所有图像完成一次迭代训练.预训练结束后,保留对比损失最小的模型参数,把最优参数迁移到下游乳腺肿瘤良恶性分类任务中,在三胞胎网络后面加入新的全连接层和Softmax输出分类结果.微调时冻结网络前面层的参数,解冻Dense Block3和Dense Block4的部分参数18,在SYU数据集上进行五折交叉验证.

采用机器学习领域常用的评估指标:受试者操作特征曲线下面积(Area Under Curve,AUC)、灵敏度(Sensitivity)和特异度(Specificity).灵敏度和特异度的计算如下:

Sensitivity=TPTP+FN
Specificity=TNTN+FP

其中,TP表示将阳性样本预测为阳性,TN表示将阴性样本预测为阴性,FN表示将阳性样本预测为阴性,FP表示将阴性样本预测为阳性.

3 结果与讨论

3.1 两种损失函数结果对比

对比预训练损失函数分别为InfoNCE Loss和Hard Triplet Loss的三胞胎网络在下游分类任务的分类结果.使用AUC作为模型分类结果的评估指标,在SYU测试集肿瘤良恶性分类任务上进行计算.AUC越高,算法的分类性能越好.如图4所示,无论以哪个卷积网络为框架,以Hard Triplet Loss作为预训练损失函数,其分类结果都比InfoNCE Loss更好.

图4

图4   四种预训练模型在四种DenseNet框架下的AUC对比

Fig.4   AUC of four pre⁃trained models with four DenseNet as backbones


具体的评价结果如表2所示,表中黑体字表示性能最优.由表可得,与损失函数为InfoNCE Loss的预训练模型相比,损失函数为Hard Triplet Loss的预训练模型的AUC提升2%~4%,灵敏度和特异度提升2%~6%.可见本文构建的Hard Triplet Loss在视频相邻帧对比学习任务上的表现比InfoNCE Loss更出色.

表2   四种预训练模型在四种DenseNet框架下的实验结果对比

Table 2  Experimental results of four pre⁃trained models with four DenseNets as backbone

DenseNet121AUCSensitivitySpecificity
随机初始化0.8940.8180.818
ImageNet预训练模型0.8750.7860.786
三胞胎网络+Hard Triplet Loss0.9430.8780.878
三胞胎网络+InfoNCE Loss0.9240.8580.858
DenseNet161随机初始化0.8980.8410.841
ImageNet预训练模型0.8990.8200.820
三胞胎网络+Hard Triplet Loss0.9380.8820.882
三胞胎网络+InfoNCE Loss0.9030.8310.831
DenseNet169随机初始化0.8970.8310.831
ImageNet预训练模型0.8660.7880.788
三胞胎网络+Hard Triplet Loss0.9520.8900.890
三胞胎网络+InfoNCE Loss0.9190.8500.850
DenseNet201随机初始化0.8960.8310.831
ImageNet预训练模型0.8630.7620.762
三胞胎网络+Hard Triplet Loss0.9380.8770.877
三胞胎网络+InfoNCE Loss0.9260.8500.850

新窗口打开| 下载CSV


3.2 三胞胎网络、ImageNet预训练模型和随机初始化模型的对比

为了评估三胞胎网络的预训练性能,对比了三种模型.模型1,基于三胞胎网络和视频流进行预训练,利用表1所示的微调数据集进行微调,再用得到的结果在测试集进行测试,计算各种指标.模型2,基于四种DenseNet框架的ImageNet预训练模型,微调和测试同模型1.模型3,使用随机初始化模型,微调和测试同模型1.

使用AUC作为模型分类性能的评估指标,在SYU测试集肿瘤良恶性分类任务上进行计算,AUC越高,算法的分类性能越好.需要强调的是,实验挑选的是四种没有经过特殊方法训练的ImageNet预训练模型.对比结果亦如图4所示.由图可见,和ImageNet预训练模型及随机初始化模型相比,三胞胎模型的分类性能更好,尤其是以Hard Triplet Loss为对比损失函数的三胞胎模型,分类性能大幅领先.ImageNet预训练模型分类的性能甚至比随机初始化模型还要差,在DenseNet161框架上,ImageNet预训练模型的AUC仅比随机初始化模型高0.1%,在其余三种框架上,ImageNet预训练后的分类表现均不如随机初始化模型.

具体的评估结果亦如表2所示,表中黑体字表示性能最优.

首先,损失函数为Hard Triplet Loss的三胞胎网络的AUC比ImageNet预训练模型提高4%~9%,灵敏度和特异度提升9%~10%,充分证明三胞胎网络在预训练阶段捕捉的肿瘤特征比ImageNet预训练模型捕捉的特征更符合乳腺超声肿瘤分类任务的要求.再者,和随机初始化模型相比,ImageNet预训练模型的AUC平均下降2.1%,灵敏度和特异度平均下降4.1%,证明ImageNet预训练模型误导了下游分类任务.这可能因为ImageNet数据集是自然图像,与乳腺超声图像特征之间的差距较大,ImageNet预训练模型捕捉的特征不能充分反映肿瘤的信息.由表2还可以看到,损失函数为Hard Triplet Loss的三胞胎网络在SYU数据集上有优异的分类性能.以Hard Triplet Loss为损失函数的四种卷积网络三胞胎模型,AUC均大于0.93,灵敏度和特异度均超过0.87,尤其在DenseNet⁃169卷积网络上,AUC达0.952,灵敏度和特异度均达0.89.需要强调的是,预训练数据集和SYU数据集是两个独立的数据集,在跨数据集迁移后,三胞胎网络分类的性能表现仍然很突出,证明本文模型的泛化性能强,分类性能优异.

3.3 与其他基于ImageNet的SOTA预训练模型的对比

为了进一步证明三胞胎网络的分类性能,挑选最先进的三种ImageNet预训练模型34,分别是MoCo⁃v2,BYOL和SwAV来进行对比实验,它们采用的是和本文不同的骨架网络.把这些预训练好的模型迁移到SYU数据集上进行微调和测试,并和前文DenseNet161⁃ImageNet预训练模型和DenseNet169⁃三胞胎网络(使用Hard Triplet Loss)进行对比.实验结果如图5所示,余下两种指标详见表3,表中黑体字表示性能最优.可见DenseNet169⁃三胞胎网络(Hard Triplet Loss)的三种指标均领先于所有ImageNet预训练模型,DenseNet161⁃ImageNet预训练模型仅次于三胞胎网络.MoCo⁃v2,BYOL和SwAV的表现基本一致,AUC在0.752~0.764,灵敏度和特异度均在0.665~0.676.原因可能是MoCo⁃v2,BYOL和SwAV三种模型虽然能较好地学习自然图像域的分布,但其自然图像与医学图像内秉的分布不同,所以模型不能很好地跨数据集泛化.

图5

图5   三胞胎网络和其他SOTA预训练模型的AUC对比

Fig.5   AUC of our Triplet Network and other SOTA models


表3   三胞胎网络和其他SOTA预训练模型的实验结果对比

Table 3  Experimental results of our Triplet Network and other SOTA models

ModelAUCSensitivitySpecificity

DenseNet169⁃三胞胎网络

(Hard Triplet Loss)

0.9520.8900.890
MoCo⁃v20.7560.6740.674
BYOL0.7640.6760.676
SwAV0.7520.6650.665

DenseNet161⁃ImageNet

预训练模型

0.8990.8200.820

新窗口打开| 下载CSV


3.4 小数据集训练

本文的主要思想是使用视频流数据对模型进行预训练,从而降低对标注数据量的要求,以解决标注数据缺乏和模型过拟合等问题.为此,需测试模型对小样本需求的下限.

从SYU数据集中随机划分出四个独立小数据集,对每个小数据集进行五折交叉验证.四个小数据集的样本数分别是:80(64个样本用于训练,16个样本用于测试,简记为64/16),120(96/24),175(140/35)和190(152/38).

在基于对比学习方法对乳腺超声肿瘤的自动识别和分类任务上,之前的一个SOTA工作提出了一个多任务框架,利用单个病变的多个视图之间的关系开展对比学习35.我们重现了这一模型,本文命名为Multi⁃task LR(Lesion Recognition),并采用和我们的模型一样的预训练和微调数据集进行训练和测试.

图6给出了五种模型在四个小数据集上的分类性能,包括以DenseNet169为骨架的两种损失函数的三胞胎模型、基于DenseNet169的Image⁃Net预训练模型、随机初始化模型和Multi⁃task LR.由图可见,在最小的数据集1中,三胞胎网络的AUC比DenseNet169⁃ImageNet预训练模型高6%,说明三胞胎模型在训练数据只有64个时,分类性能依然领先.在小数据集2上,损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎网络的AUC超过0.9,在小数据集3和4上,AUC分别是0.929和0.936.DenseNet169⁃ImageNet预训练模型和随机初始化模型的AUC均低于0.86.

图6

图6   两种损失函数的DenseNet169⁃三胞胎网络、Multi⁃task LR模型、DenseNet169⁃ImageNet预训练模型和随机初始化模型在四个小数据集上AUC的对比

Fig.6   AUC of Triplet Network based on DenseNet169 with two loss functions,Multi-task LR model,DenseNet169⁃ImageNet pre⁃trained model and stochastic initialization model on four small datasets


临床上,灵敏度在辅助诊断系统中占有重要地位.如表4所示,损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎模型在小数据集2上的灵敏度是0.835,在小数据集3和4上均超过0.86,而DenseNet169⁃ImageNet预训练模型的灵敏度均低于0.77.

表4   两种损失函数的DenseNet169⁃三胞胎网络、Multi⁃task LR模型、DenseNet169⁃ImageNet预训练模型和随机初始化模型在四个小数据集上三种评价指标的对比

Table 4  Three evaluation indicators of Triplet Network based on DenseNet169 with two loss functions,Multi⁃task LR model,ImageNet pre⁃trained model based on DenseNet169 and stochastic initialization model on four small datasets

小数据集 1

64个训练,

16个测试

AUCSensitivitySpecificity
随机初始化0.7270.6830.683
ImageNet预训练模型0.7430.6670.667
DenseNet169⁃三胞胎网络(Hard Triplet Loss)0.8000.7240.724
DenseNet169⁃三胞胎网络(InfoNCE Loss)0.8000.7340.734
Multi⁃task LR模型0.7430.6610.661

小数据集 2

96个训练,

24个测试

随机初始化0.8360.7690.769
ImageNet预训练模型0.8520.7640.764
DenseNet169⁃三胞胎网络(Hard Triplet Loss)0.9010.8350.835
DenseNet169⁃三胞胎网络(InfoNCE Loss)0.8670.8090.809
Multi⁃task LR模型0.9000.8330.833

小数据集 3

140个训练,

35个测试

随机初始化0.8590.7930.793
ImageNet预训练模型0.8420.7540.754
DenseNet169⁃三胞胎网络(Hard Triplet Loss)0.9290.8650.865
DenseNet169⁃三胞胎网络(InfoNCE Loss)0.8890.8180.818
Multi⁃task LR模型0.8970.8340.834

小数据集 4

152个训练,

38个测试

随机初始化0.8320.7760.776
ImageNet预训练模型0.8480.7600.760
DenseNet169⁃三胞胎网络(Hard Triplet Loss)0.9360.8700.870
DenseNet169⁃三胞胎网络(InfoNCE Loss)0.9010.8370.837
Multi⁃task LR模型0.9290.8680.868

新窗口打开| 下载CSV


图6表4可见,本文提出的模型在所有数据集上的各个评价指标都高于Multi⁃task LR模型,说明本文提出的模型框架更优.

综上,对于损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎模型,仅需96个标注数据进行微调,就能使模型的分类性能达到一个较好的结果(AUC为0.901,敏感度为0.835),极大降低了基于监督学习的方法对标注数据的依赖,在医疗影像人工智能辅助诊断领域有重要的价值.

4 结论

基于深度学习的医学影像辅助诊断系统在相关领域发挥着越来越大的作用,降低其对标注数据的依赖有很大的学术价值和应用价值.本文从乳腺超声视频流出发,根据病人、视频相邻帧等信息,构建包含目标样本和正负样本的非标注数据集,并通过自监督对比学习对一个三胞胎网络进行预训练,然后把模型迁移到下游小样本乳腺肿瘤良恶性分类任务中,以解决医疗数据中标注数据缺乏的问题.本文还提出多近邻采样及平均化方法扩充正样本数量,并利用Hard Negative Mining和Hard Positive Mining方法挑选困难正负样本以构建损失函数,加快模型收敛、提高预测精度.

从实验结果可见,经过预训练的三胞胎网络在SYU数据集上的AUC最高可达0.952,和基于DenseNet框架的ImageNet预训练模型相比,平均高6.7%,比MoCo⁃v2,BYOL和SwAV三种ImageNet预训练模型平均高19.47%,灵敏度和特异度均达到0.89,说明本文模型的分类性能优于ImageNet预训练模型.此外,与之前的一个针对乳腺超声的多视图对比模型相比,本文模型具有更好的分类性能.最后,通过对标注样本量需求下限的测试,发现仅需96个微调数据模型就能出色地完成下游分类任务.

本文模型还可在以下方面继续优化,包括优化网络架构以提高训练速度,进行多中心合作以扩充数据集,融合多个模态如X射线、磁共振等数据.另外,肿瘤分类任务可与其他如异常检测、分割和定位等相关任务联合进行多任务学习,通过共享特征表示来提高模型的性能和泛化能力.还可以和传统的基于影像组学的方法融合,输入不同类型和分级的肿瘤形状、纹理等特征来加快收敛和提高泛化能力.为了将研究成果转化为实际临床应用,还需对不同来源的数据集进行微调和测试,增强其泛化能力和鲁棒性,并最终在真实的医疗环境中进行验证.最后,增强模型的可解释性,也是临床应用上需要关注的方面.

综上,本文基于深度学习和自监督对比学习技术,从乳腺超声视频流出发,搭建数据集、预训练了一个三胞胎网络模型,并应用于下游肿瘤分类任务.测试结果优于同类SOTA模型,并在只有少量标签数据的情况下,可达到良好的分类性能,有较好的临床应用前景.

参考文献

Noble J ABoukerroui D.

Ultrasound image segmentation:A survey

IEEE Transactions on Medical Imaging,200625(8):987-1010.

[本文引用: 1]

Melendez JSánchez C IPhilipsen R H H Met al.

An automated tuberculosis screening strategy combining X⁃ray⁃based computer⁃aided detection and clinical information

Scientific Reports,2016625265.

[本文引用: 1]

Lakhani PSundaram B.

Deep learning at chest radiography:Automated classification of pulmonary tuberculosis by using convolutional neural networks

Radiology,2017284(2):574-582.

[本文引用: 1]

Setio A A ACiompi FLitjens Get al.

Pulmonary nodule detection in CT images:False positive reduction using multi⁃view convolutional networks

IEEE Transactions on Medical Imaging,201635(5):1160-1169.

[本文引用: 1]

Pesce EWithey S JYpsilantis P Pet al.

Learning to detect chest radiographs containing pulmonary lesions using visual attention networks

Medical Image Analysis,20195326-38.

[本文引用: 1]

Evain ERaynaud CCiofolo⁃Veit Cet al.

Breast nodule classification with two⁃dimensional ultrasound using Mask⁃RCNN ensemble aggregation

Diagnostic and Interventional Imaging,2021102(11):653-658.

[本文引用: 1]

Gao Y HLiu BZhu Yet al.

Detection and recognition of ultrasound breast nodules based on semi⁃supervised deep learning:A powerful alternative strategy

Quantitative Imaging in Medicine and Surgery,202111(6):2265-2278.

[本文引用: 1]

Lei YHe X XYao J Cet al.

Breast tumor segmentation in 3D automatic breast ultrasound using Mask scoring R⁃CNN

Medical Physics,202148(1):204-214.

[本文引用: 1]

Cui W JPeng Y SYuan Get al.

FMRNet:A fused network of multiple tumoral regions for breast tumor classification with ultrasound images

Medical Physics,202249(1):144-157.

[本文引用: 1]

Dosovitskiy ABeyer LKolesnikov Aet al.

An image is worth 16×16 words:Transformers for image recognition at scale

The 9th International Conference on Learning Representations. Online,2021.

[本文引用: 1]

Al-Dhabyani WGomaa MKhaled Het al.

Dataset of breast ultrasound images

Data in Brief,202028104863.

[本文引用: 1]

Yap M HPons GMartí Jet al.

Automated breast ultrasound lesions detection using convolutional neural networks

IEEE Journal of Biomedical and Health Informatics,201822(4):1218-1226.

[本文引用: 1]

Zhang Y TXian MCheng H Det al.

BUSIS:A benchmark for breast ultrasound image segmentation

Healthcare,202210(4):729.

[本文引用: 1]

Jaiswal ABabu A RZadeh M Zet al.

A survey on contrastive self⁃supervised learning

Technologies,20209(1):2.

[本文引用: 1]

Han XZhang Z YDing Net al.

Pre⁃trained models:Past,present and future

AI Open,20212225-250.

[本文引用: 1]

Thrun SPratt L.

Learning to learn:Introduction and overview

∥Thrun S,Pratt L. Learning to learn. Springer Berlin Heidelberg,19983-17.

[本文引用: 1]

Pan S JYang Q.

A survey on transfer learning

IEEE Transactions on Knowledge and Data Engineering,201022(10):1345-1359.

[本文引用: 1]

Huang GLiu ZVan Der Maaten Let al.

Densely connected convolutional networks

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE20172261-2269.

[本文引用: 3]

He K MFan H QWu Y Xet al.

Momentum contrast for unsupervised visual representation learning

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE20209726-9735.

[本文引用: 3]

van den Oord ALi Y ZVinyals O.

Representation learning with contrastive predictive coding

2018,arXiv:.

[本文引用: 1]

Dyer C.

Notes on noise contrastive estimation and negative sampling

2014,arXiv:.

[本文引用: 1]

Chen TKornblith SNorouzi Met al.

A simple framework for contrastive learning of visual representations

The 37th International Conference on Machine Learning. OnlinePMLR20201597-1607.

[本文引用: 1]

Zhang SLiao MWang Jet al.

Fully automatic tumor segmentation of breast ultrasound images with deep learning

Journal of Applied Clinical Medical Physics,202324(1):E13863.

[本文引用: 2]

Zhang STang T YPeng Xet al.

Automatic localization and identification of thoracic diseases from chest X⁃rays with deep learning

Current Medical Imaging,202218(13):1416-1425.

[本文引用: 1]

Fei-Fei LDeng JLi K.

ImageNet:Constructing a large⁃scale image database

Journal of Vision,20099(8):1037.

[本文引用: 1]

He K MZhang X YRen S Qet al.

Deep residual learning for image recognition

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE2016770-778.

[本文引用: 1]

Lee C YXie S NGallagher Pet al.

Deeply⁃supervised nets

Proceedings of the 8th International Conference on Artificial Intelligence and Statistics. San Diego,CA,USAJMLR.org2015562-570.

[本文引用: 1]

Ren S QHe K MGirshick Ret al.

Faster R⁃CNN:Towards real⁃time object detection with region proposal networks

IEEE Transactions on Pattern Analysis and Machine Intelligence,201739(6):1137-1149.

[本文引用: 1]

Gidaris SKomodakis N.

Object detection via a multi⁃region and semantic segmentation⁃aware CNN model

Proceedings of the IEEE International Conference on Computer Vision. Santiago,ChileIEEE20151134-1142.

[本文引用: 1]

Long JShelhamer EDarrell T.

Fully convolutional networks for semantic segmentation

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USAIEEE20153431-3440.

[本文引用: 1]

Vinyals OToshev ABengio Set al.

Show and tell:A neural image caption generator

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USAIEEE20153156-3164.

[本文引用: 1]

Johnson JKarpathy AFei⁃Fei L.

DenseCap:Fully convolutional localization networks for dense captioning

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE20164565-4574.

[本文引用: 1]

Otsu N.

A threshold selection method from gray⁃level histograms

IEEE Transactions on Systems,Man,and Cybernetics,19799(1):62-66.

[本文引用: 1]

Anton JCastelli LChan M Fet al.

How well do self⁃supervised models transfer to medical imaging?

Journal of Imaging,20228(12):320.

[本文引用: 1]

Guo Y FYang C QLin T Cet al.

Self supervised lesion recognition for breast ultrasound diagnosis

2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI). Kolkata,IndiaIEEE20221-4.

[本文引用: 1]

/