基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统

doi:10.13232/j.cnki.jnju.2024.01.004

基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统

唐蕴芯¹, 廖梅², 张艳玲^,², 张建^,¹^,⁴, 陈皓³, 王炜^,¹^,⁴

1.南京大学物理学院, 南京, 210093

2.中山大学附属第三医院超声科, 广州, 510630

3.杭州精康科技, 杭州, 310000

4.南京大学脑科学研究院, 南京, 210093

Breast tumor classification based on video stream and self⁃supervised contrastive learning

Tang Yunxin¹, Liao Mei², Zhang Yanling^,², Zhang Jian^,¹^,⁴, Chen Hao³, Wang Wei^,¹^,⁴

1.School of Physics，Nanjing University，Nanjing，210093，China

2.Department of Ultrasound，Third Affiliated Hospital，Sun Yat⁃sen University，Guangzhou，510630，China

3.Precision Care Technology，Hangzhou，310000，China

4.Institute for Brain Sciences，Nanjing University，Nanjing，210093，China

通讯作者: E⁃mail：hnsyyanling@163.com，jzhang@nju.edu.cn，wangwei@nju.edu.cn

收稿日期: 2023-11-04

基金资助:

国家自然科学基金. 11774158

Received: 2023-11-04

摘要

乳腺超声广泛应用于乳腺肿瘤诊断，基于深度学习的肿瘤良恶性分类模型可以有效地辅助医生诊断，提高效率，降低误诊率，然而，由于标注数据的高成本问题，限制了此类模型的开发和应用.为此，从乳腺超声视频中构建了无标注预训练数据集，包含11805个目标样本数据和动态生成的正、负样本数据集（样本量分别为188880和1310355个）.基于该数据集，搭建了三胞胎网络并进行了自监督对比学习.此外，还发展了Hard Negative Mining和Hard Positive Mining方法来选取困难的正负样本构建对比损失函数，加快模型收敛.参数迁移后，将三胞胎网络在SYU数据集上进行微调和测试.实验结果表明，与基于ImageNet预训练的若干SOTA模型以及与前人针对乳腺超声的多视图对比模型相比，提出的三胞胎网络模型具有更强的泛化能力和更好的分类性能.此外，还测试了模型对标注数据量的需求下限，发现仅使用96个标注数据，模型性能即可达到 $A U C = 0.901$ ，敏感度为0.835.

关键词： 乳腺超声 ; 深度学习 ; 自监督学习 ; 对比学习 ; 预训练模型 ; 三胞胎网络

PDF (1299KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

唐蕴芯, 廖梅, 张艳玲, 张建, 陈皓, 王炜. 基于乳腺超声视频流和自监督对比学习的肿瘤良恶性分类系统. 南京大学学报（自然科学）[J], 2024, 60(1): 26-37 doi:10.13232/j.cnki.jnju.2024.01.004

Tang Yunxin, Liao Mei, Zhang Yanling, Zhang Jian, Chen Hao, Wang Wei. Breast tumor classification based on video stream and self⁃supervised contrastive learning. Journal of nanjing University[J], 2024, 60(1): 26-37 doi:10.13232/j.cnki.jnju.2024.01.004

Abstact： Breast ultrasound is widely used in the diagnosis of breast tumors. Deep learning⁃based tumor benign⁃malignant classification models effectively assist doctors in diagnosis，improving efficiency and reducing misdiagnosis rates，among other benefits. However，the high cost of annotated data limits the development and application of such models. In this study，we construct an unlabeled pretraining dataset from breast ultrasound videos，which includes 11805 target samples and dynamically generated positive and negative sample datasets （with sample sizes of 188880 and 1310355，respectively）. Based on this dataset，we build a triplet network and conduct self⁃supervised contrastive learning. Additionally，we develope Hard Negative Mining and Hard Positive Mining methods to select challenging positive and negative samples for constructing the contrastive loss function，accelerating model convergence. After parameter transfer，the triplet network is fine⁃tuned and tested on the SYU dataset. Experimental results demonstrate that the triplet network model developed in this study exhibits stronger generalization capability and better classification performance compared to several state⁃of⁃the⁃art models pretrained on ImageNet and previous multi⁃view contrastive models for breast ultrasound. Furthermore，we test the minimum requirement of annotated data for the model and find that using only 96 annotated data points achieves a performance with an $A U C = 0.901$ and sensitivity of 0.835.

作为最常用的成像模态之一，超声（Ultrasound，US）是临床上不可或缺的扫查与诊断工具，具有无损伤、无放射性、低成本等优点.在当前的临床实践中，医学超声在各个专业科室得到了应用，如心电图、乳腺超声、腹部超声、经直肠超声、心血管超声以及产前诊断超声，尤其广泛应用于妇产科^［1］.一次高质量的超声成像诊断，不仅要求超声图像包含的噪声和伪影少，还要求机器操作者和诊断医生具有丰富的临床经验.近年来，为了减轻医生负担，获得更客观、更准确和更高时效性的诊断，人们致力于开发先进的自动化超声图像识别方法作为医生的辅助工具.

深度学习（Deep Learning，DL）是机器学习的一个分支，是一种表征学习方法，能直接从原始数据自动学习不同层次的抽象特征，被广泛应用于计算机自动图像识别领域，如分割、分类、目标检测等等，也包含医疗影像的自动化识别.医疗影像包括CT （Computed Tomography）影片、医学超声图像、核医学成像、核磁共振成像等，针对特定疾病的诊断算法层出不穷，常见的有肺结核^［2-3］、肺结节^［4-5］、乳腺结节^［6-7］和乳腺癌^［8-9］等.目前在图像自动识别领域中常用的深度学习网络有两种，一种是深度卷积神经网络（Convolutional Neural Networks，CNN），另一种是新兴代表ViT（Vision Transformer）^［10］，但这些深度网络的参数量都非常大，一般以百万（Mega，M）或十亿（Giga，G）为单位，这要求用于训练网络的数据量要足够大，否则深度学习网络会出现过拟合现象，影响模型性能.然而，目前在乳腺超声领域上，公开的有标签数据集只有BUSI，DatasetB和BUSIS.其中，BUSI数据集^［11］由Al⁃Dhabyani团队从600个病人中采集，包含133张无肿瘤图像、437张恶性肿瘤图像和210张良性肿瘤图像，图像平均像素为500 $\times$ 500；DatasetB数据集^［12］来自西班牙萨巴德尔Parc Tauli公司的UDIAT诊断中心，一共有163张图像，其中良性110张，恶性53张；BUSIS数据集^［13］由哈尔滨医科大学附属第二医院、青岛大学附属医院和河北医科大学第二医院使用多种超声设备采集，从26~78岁女性中采集到562张乳腺超声图像.乳腺超声数据集的严重稀缺，给乳腺肿瘤自动识别任务带来巨大的挑战.

为了解决上述问题，本文采用自监督对比学习^［14-15］和迁移学习^［16-17］两种技术，将训练分为预训练和微调阶段.和监督学习相比，自监督学习具有无须标注训练样本的优势，能保证大量训练数据的低成本获取，结合大容量的深度学习模型可以发挥巨大的潜力.本文在预训练阶段利用自监督对比学习，从一个无标签的乳腺超声视频数据集中学习通用性知识，再将其迁移到下游的乳腺病变良恶性分类任务中.首先，构建一个无标签乳腺超声视频数据集，包含来自200位病人的1360个乳腺超声扫描视频，视频长度为8~10 s，从中选出11805例目标样本图片，并对每个目标样本动态生成相应的正样本和负样本.将上述样本用于对比学习训练一个三胞胎网络.在预训练阶段，提出多近邻采样及平均化方法来扩充正样本数量，并基于Hard Negative Mining和Hard Positive Mining构建对比损失函数Hard Triplet Loss以挑选困难正负样本，加快模型收敛.预训练完成后，把网络参数迁移到下游的乳腺肿瘤分类任务中，针对一个小的人工标注数据集进行微调.最后报告模型分类性能，并和基于ImageNet的迁移学习模型和其他SOTA （State⁃of⁃The⁃Art）模型进行了比较.

1 自监督对比学习网络模型

本文提出的模型包括两个部分，如图1所示.虚线上部是一个三胞胎网络（Triplet Network），负责利用视频相邻帧进行预训练.预训练过程中，通过优化卷积网络，使相似样本对应的特征在特征空间具有较近的距离，不相似样本的距离较远.虚线下部是一分类网络，其卷积网络部分与三胞胎网络共享参数，负责对预训练后的模型进行微调.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 三胞胎模型的预训练（上半部分）与微调（下半部分）

Fig.1 The pretraining (upper part) and finetuning (lower part) of Triplet Network

1.1　自监督对比学习模型及迁移学习

1.1.1　三胞胎网络Triplet Network

采用三胞胎网络（Triplet Network），其输入分别是目标样本 $X 、正样本 X^{+}$ 和负样本 $X^{-}$ ，其中，目标样本 $X$ 是从乳腺超声视频中任意截取的一帧， $正样本 X^{+}$ 是目标样本 $X$ 的相邻帧，负样本 $X^{-}$ 一般来自不同视频.目标样本和正负样本共同组成一个训练批次的预训练样本集，将其输入三胞胎网络，提取图像的特征，最后输出1024维特征向量 $f (X^{+}), f (X)$ 和 $f (X^{-})$ .如图1所示，这些特征向量对应1024维特征空间中的特征点.

三胞胎网络本质上是三个共享参数的深度卷积网络.其中，深度卷积网络采用密集型网络DenseNet^［18］，包括一个 $7 \times 7$ 的卷积层、一个 $3 \times 3$ 的池化层和四个Dense Block，相邻两个Dense Block之间插入Transition Layer，最后是全局平均池化和Softmax分类器.按神经网络的层数可以分为DenseNet121，DenseNet161，DenseNet169和DenseNet201等.

1.1.2　损失函数

优化预训练的基本思想为在特征空间中减小目标样本点与正样本点的距离，加大目标样本点与负样本点的距离.基于此优化目标，本文采用两种损失函数并进行了比较.一种是目前常用的InfoNCE Loss，另一种是本文新发展的Hard Triplet Loss.

$I n f o N C E L o s s$ 是一种比较常用的解决多分类问题的对比学习损失函数^［19-20］，由解决二分类问题NCE Loss（Noise Contrastive Estimation）损失函数演变而来^［21］. $I n f o N C E L o s s$ 的计算如下^［19］：

\begin{array}{l} I n f o N C E L o s s = \\ - l g \frac{\sum_{i = 1}^{P} e x p (C o s i n e (f (X) \cdot f (X_{i}^{+})) / τ)}{\sum_{j = 1}^{P + K} e x p (C o s i n e (f (X) \cdot f (X_{j})) / τ)} \end{array}

(1)

其中， $τ$ 是温度超参数，控制模型对负样本的区分度； $C o s i n e (∙)$ 是余弦相似度，分别计算目标样本与正负样本特征向量的相似性；P，K分别是正、负样本的总数；分子表示目标样本和所有正样本特征向量相似度的总和，分母表示目标样本和所有正负样本相似度的总和.目标样本和正样本的相似度越大，和负样本的相似度越小，InfoNCE Loss就越小，表明预训练越好.

经典的Triplet Loss定义如下：

\begin{array}{l} T r i p l e t L o s s = \\ m a x \{0, D (f (X), f (X^{+})) - D (f (X), f (X^{-})) + M\} \end{array}

（2）

其中，M是自定义优化阈值， $M \geq 0; D (∙)$ 是特征距离，比较M值与正负样本之间特征距离大小.当 $D (f (X), f (X^{-})) - D (f (X), f (X^{+})) \geq M$ ，正负样本的特征距离大于自定义的阈值M， $T r i p l e t L o s s = 0$ ，则模型不需要梯度下降、更新参数；当 $D (f (X), f (X^{-})) - D (f (X), f (X^{+})) < M$ ，正负样本的特征距离小于自定义的阈值M， $T r i p l e t L o s s > 0$ ，则Triplet Loss通过惩罚进一步减小目标样本点和正样本点的距离，加大目标样本点与负样本点的距离.本文采用的特征距离是余弦相似度距离，定义如下：

D (f (X), f (X^{+})) = 1 - \frac{f (X), f (X^{+})}{∥ f (X) ∥ ∥ f (X^{+}) ∥}

（3）

D (f (X), f (X^{-})) = 1 - \frac{f (X), f (X^{-})}{∥ f (X) ∥ ∥ f (X^{-}) ∥}

（4）

对于对比学习，每次训练选取的正负样本越多，模型的泛化性就越强^{［19，22］}，但一次性把大量图像输入三胞胎网络，对所有图像计算对比损失，进行梯度下降、更新参数，对机器的存储和计算要求很高，模型的收敛速度会非常慢.因此，本文在式（2）的基础上发展了Hard Negative Mining和Hard Positive Mining.

如图1所示，每个样本经过深度网络被映射到1024维特征空间上后，困难的正负样本被挑选出来参与训练.具体地，选择距离目标样本最远的P个正样本以及距离最近的K个负样本进行训练，构建新的对比损失函数Hard Triplet Loss：

H a r d T r i p l e t L o s s = \frac{\sum_{i = 1}^{K} m a x \{0, D (f (X), M e a n^{+}) - D (f (X), f (X_{i}^{-})) + M\}}{K} + \frac{λ}{2} ∥ W ∥_{2}^{2}

（5）

其中，W是预训练模型权重， $λ$ 是L₂正则化系数； $M e a n^{+} = \frac{\sum_{j = 1}^{P} f (X_{j}^{+})}{P}$ ，代表困难正样本均值点.

计算每个困难负样本与 $M e a n^{+}$ 的Triplet Loss，Hard Triplet Loss是这些困难样本的Triplet Loss的平均.本文中 $M = 0.5, P = K = 3, λ = 0.0005$ ，为了提高预训练模型的泛化性能，使用带动量的随机梯度下降方法，并使用余弦退火方法平缓下降学习率，下降周期为200，最小学习率 $e t a_m i n$ 限制为0.0005.

1.2　参数迁移后微调

将预训练得到的深度学习网络迁移到下游的乳腺超声肿瘤良恶性分类任务中.网络的微调过程具体为：固定前面网络层参数不变，优化后面部分层参数，并为模型添加一个新的全连接层和Softmax层，最后输出判断为良性、恶性的概率.

2 数据集及训练方法

2.1　预训练数据集与SYU数据集

进行微调和测试的数据集包括一个预训练数据集和一个来自中山大学附属第三医院（中大三院）的SYU数据集.其中，预训练数据集包含目标样本数据集、正样本数据集和负样本数据集.具体如表1所示.

表1 预训练数据集和SYU数据集的相关信息

Table 1 Statistics of pre⁃training datasets and SYU datasets

数据集	结构	病人数	视频数	相邻帧数	图片总数	图片数/批次	规范尺寸（像素）	出处
预训练数据集	目标样本数据集	200	1360	5	11805	1	224×224	视频
	正样本数据集	200	1360	5	188880（动态生成）	16	224×224	相邻帧
	负样本数据集	200	1360	5	1310355（动态生成）	111	224×224	不同病人不同视频
SYU数据集	微调数据集	66	-	-	320	64	224×224	中大三院
SYU数据集	测试数据集	66	-	-	80	64	224×224	中大三院

新窗口打开| 下载CSV

2.1.1　目标样本数据集

如表1所示，目标样本数据集从200个病人的1360个乳腺超声视频中构建.目标样本数据集构建步骤如下.

$(1)$ 首先，从每个病人的每个视频中每隔五帧截取一张图像，再利用我们之前工作得到的一个DenseUNet模型^［23］来判断截取的图像有无肿瘤.

$(2)$ 判断为有肿瘤的图像暂时保留，待同一个视频里面有肿瘤的图像全部筛选完毕，对比所有相邻的图像，调用skimage库的structural_similarity方法计算相邻两张图像的相似度.相似度大于0.35则保存两张图像，相似度小于0.35则抛弃后一时刻的图像.不断重复步骤 $(2)$ ，直到同一个视频里面所有图像的相似度都大于0.35.

$(3)$ 所有视频得到的图像共同构成一个目标样本数据集，共11805张，经预处理后统一尺寸为 $224 像素 \times 224 像素$ .图2展示了目标样本数据集中同一视频相邻的三张图像、来自相同病人不同视频的三张图像以及来自不同病人不同视频的五张图像.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 目标样本数据集和SYU数据集的部分乳腺超声图像

Fig.2 Examples of breast ultrasound images from target sample dataset and SYU dataset

2.1.2　正负样本数据集

如表1所示，正负样本数据集根据目标样本数据集动态生成.具体步骤为：以目标样本为锚点，从相邻帧选取正样本，从不同病人不同视频随机选取负样本.不考虑从相同病人的其他视频选取负样本，原因是相同病人不同视频拍摄的肿瘤相同，拍摄角度和肿瘤呈现的形态虽然不同，但特征信息相似.

数据增强是一种常见的数据扩增技术，可以对现有数据应用一组变换来生成新样本，如平移、旋转、变形、缩放、颜色空间变换、裁剪等等，目标是生成更多样本以创建更大的数据集.一般地，在对比学习中，大量正样本可通过数据增强生成，但乳腺超声图像对数据增强操作十分敏感，除了小角度旋转和左右翻转操作，其他数据增强的手段均会破坏肿瘤关键的特征信息.为了提高正样本的数量，保证正样本的采样质量，本文提出多近邻采样及平均化方法，具体如图3所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 正负样本的采样过程

Fig.3 Positives and negatives sampling

多近邻采样及平均化方法如下.

（1）以目标样本为锚点，找到左右相邻n帧、2n帧等间隔的图像，对目标样本和相邻帧进行小角度旋转和左右翻转操作，即图3中的AUG1和AUG2，相邻帧与AUG1，AUG2组成第一批次正样本.

（2）对第一批次中的相邻帧做均值化处理.均值化处理能进一步突出肿瘤的关键特征，也能去除残留的噪声.这些相邻帧均值化图像加上其数据扩增图像组成第二批次正样本，如图3中相邻帧均值化+AUG1+AUG2所示.

（3）对第二批次均值化图像进行二次均值化，并进行数据扩增，得到第三批次正样本，如图3中相邻帧二次均值化+AUG1+AUG2所示.

由此得到的正样本一共是16个，如表1所示，1个目标样本、16个正样本和111个随机采样的负样本组成一个批次进行训练，规定一个批次的样本数是2的指数，如64，128等.预训练过程中正负样本采样总量分别是188880和1310355个.间隔单位 $n = 5$ ，相邻帧间隔取5，10，15.

2.1.3　SYU数据集

如表1所示，SYU数据集来自中大三院^［23-24］，包括400张乳腺超声图像，其中175张良性，225张恶性，经预处理后统一尺寸为 $224 像素 \times 224 像素$ .按照五折交叉验证方法把SYU数据集随机分成两个独立的微调数据集和测试数据集，微调数据集含乳腺超声图像320张，测试数据集含乳腺超声图像80张.图2展示了SYU数据集的部分乳腺超声图像.

2.1.4　ImageNet数据集

ImageNet是一个用于计算机视觉识别研究的大型可视化数据集，由斯坦福大学李飞飞教授带领创建^［25］，包含14197122张图像和21841个Synset索引，常用作评估图像分类算法性能的基准.基于ImageNet数据集，目前已有一大批有监督的预训练模型，如ResNet，DenseNet，GoogleNet等，这些模型提高了图像分类^［26-27］、目标检测^［28-29］、图像分割^［30］、图像描述^［31-32］等多种任务的性能.

2.2　数据预处理

采用模糊增强和双边滤波两种数据预处理方法来降低噪声，增强信噪比.其中，模糊增强利用大津法（OTSU）^［33］生成二值化图像，增强肿瘤边缘特征；双边滤波采用加权平均去掉原图尖锐噪声，保留肿瘤的边界.但这两种数据增强均会丢失或削弱肿瘤的有用信息，因此原始图像也予以保留.将原始图像和两种数据增强的图像在通道维度上堆叠在一起，组成三通道图片输入模型.

2.3　模型的训练及评估

训练了四个分别以DenseNet121，DenseNet161，DenseNet169和DenseNet201^［18］为骨架的三胞胎网络.在预训练阶段，输入图像的尺寸统一为224像素×224像素，数值归一化到0~1；网络采用带动量的随机梯度下降作为权值更新算法，初始学习率均为 $1 \times 10^{- 3}$ ；使用余弦退火方法平缓下降学习率，下降周期为200，最小学习率eta_min限制为0.0005.预训练一共包含200个epoch，每个epoch依次从11805张图像中选出目标样本，通过多近邻采样及平均化方法得到每个目标样本对应的正样本数据集，从不同病人视频中随机挑选负样本集，把目标样本、正负样本数据集组成一个训练批次，输入三胞胎网络中完成一次迭代训练.实验规定一个epoch对预训练数据集里所有图像完成一次迭代训练.预训练结束后，保留对比损失最小的模型参数，把最优参数迁移到下游乳腺肿瘤良恶性分类任务中，在三胞胎网络后面加入新的全连接层和Softmax输出分类结果.微调时冻结网络前面层的参数，解冻Dense Block3和Dense Block4的部分参数^［18］，在SYU数据集上进行五折交叉验证.

采用机器学习领域常用的评估指标：受试者操作特征曲线下面积（Area Under Curve，AUC）、灵敏度（Sensitivity）和特异度（Specificity）.灵敏度和特异度的计算如下：

S e n s i t i v i t y = \frac{T P}{T P + F N}

（6）

S p e c i f i c i t y = \frac{T N}{T N + F P}

（7）

其中，TP表示将阳性样本预测为阳性，TN表示将阴性样本预测为阴性，FN表示将阳性样本预测为阴性，FP表示将阴性样本预测为阳性.

3 结果与讨论

3.1　两种损失函数结果对比

对比预训练损失函数分别为InfoNCE Loss和Hard Triplet Loss的三胞胎网络在下游分类任务的分类结果.使用AUC作为模型分类结果的评估指标，在SYU测试集肿瘤良恶性分类任务上进行计算.AUC越高，算法的分类性能越好.如图4所示，无论以哪个卷积网络为框架，以Hard Triplet Loss作为预训练损失函数，其分类结果都比InfoNCE Loss更好.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 四种预训练模型在四种DenseNet框架下的AUC对比

Fig.4 AUC of four pre⁃trained models with four DenseNet as backbones

具体的评价结果如表2所示，表中黑体字表示性能最优.由表可得，与损失函数为InfoNCE $L o s s$ 的预训练模型相比，损失函数为Hard Triplet Loss的预训练模型的AUC提升 $2 % ~ 4 %$ ，灵敏度和特异度提升 $2 % ~ 6 %$ .可见本文构建的Hard Triplet Loss在视频相邻帧对比学习任务上的表现比InfoNCE Loss更出色.

表2 四种预训练模型在四种DenseNet框架下的实验结果对比

Table 2 Experimental results of four pre⁃trained models with four DenseNets as backbone

DenseNet121		AUC	Sensitivity	Specificity
	随机初始化	0.894	0.818	0.818
	ImageNet预训练模型	0.875	0.786	0.786
	三胞胎网络+Hard Triplet Loss	0.943	0.878	0.878
	三胞胎网络+InfoNCE Loss	0.924	0.858	0.858
DenseNet161	随机初始化	0.898	0.841	0.841
	ImageNet预训练模型	0.899	0.820	0.820
	三胞胎网络+Hard Triplet Loss	0.938	0.882	0.882
	三胞胎网络+InfoNCE Loss	0.903	0.831	0.831
DenseNet169	随机初始化	0.897	0.831	0.831
	ImageNet预训练模型	0.866	0.788	0.788
	三胞胎网络+Hard Triplet Loss	0.952	0.890	0.890
	三胞胎网络+InfoNCE Loss	0.919	0.850	0.850
DenseNet201	随机初始化	0.896	0.831	0.831
	ImageNet预训练模型	0.863	0.762	0.762
	三胞胎网络+Hard Triplet Loss	0.938	0.877	0.877
	三胞胎网络+InfoNCE Loss	0.926	0.850	0.850

新窗口打开| 下载CSV

3.2　三胞胎网络、ImageNet预训练模型和随机初始化模型的对比

为了评估三胞胎网络的预训练性能，对比了三种模型.模型1，基于三胞胎网络和视频流进行预训练，利用表1所示的微调数据集进行微调，再用得到的结果在测试集进行测试，计算各种指标.模型2，基于四种DenseNet框架的ImageNet预训练模型，微调和测试同模型1.模型3，使用随机初始化模型，微调和测试同模型1.

使用AUC作为模型分类性能的评估指标，在SYU测试集肿瘤良恶性分类任务上进行计算，AUC越高，算法的分类性能越好.需要强调的是，实验挑选的是四种没有经过特殊方法训练的ImageNet预训练模型.对比结果亦如图4所示.由图可见，和ImageNet预训练模型及随机初始化模型相比，三胞胎模型的分类性能更好，尤其是以Hard Triplet Loss为对比损失函数的三胞胎模型，分类性能大幅领先.ImageNet预训练模型分类的性能甚至比随机初始化模型还要差，在DenseNet161框架上，ImageNet预训练模型的AUC仅比随机初始化模型高 $0.1 %$ ，在其余三种框架上，ImageNet预训练后的分类表现均不如随机初始化模型.

具体的评估结果亦如表2所示，表中黑体字表示性能最优.

首先，损失函数为Hard Triplet Loss的三胞胎网络的AUC比ImageNet预训练模型提高 $4 % ~ 9 %$ ，灵敏度和特异度提升 $9 % ~ 10 %$ ，充分证明三胞胎网络在预训练阶段捕捉的肿瘤特征比ImageNet预训练模型捕捉的特征更符合乳腺超声肿瘤分类任务的要求.再者，和随机初始化模型相比，ImageNet预训练模型的AUC平均下降 $2.1 %$ ，灵敏度和特异度平均下降 $4.1 %$ ，证明ImageNet预训练模型误导了下游分类任务.这可能因为ImageNet数据集是自然图像，与乳腺超声图像特征之间的差距较大，ImageNet预训练模型捕捉的特征不能充分反映肿瘤的信息.由表2还可以看到，损失函数为Hard Triplet Loss的三胞胎网络在SYU数据集上有优异的分类性能.以Hard Triplet Loss为损失函数的四种卷积网络三胞胎模型，AUC均大于0.93，灵敏度和特异度均超过0.87，尤其在DenseNet⁃169卷积网络上，AUC达0.952，灵敏度和特异度均达0.89.需要强调的是，预训练数据集和SYU数据集是两个独立的数据集，在跨数据集迁移后，三胞胎网络分类的性能表现仍然很突出，证明本文模型的泛化性能强，分类性能优异.

3.3　与其他基于ImageNet的SOTA预训练模型的对比

为了进一步证明三胞胎网络的分类性能，挑选最先进的三种ImageNet预训练模型^［34］，分别是MoCo⁃v2，BYOL和SwAV来进行对比实验，它们采用的是和本文不同的骨架网络.把这些预训练好的模型迁移到SYU数据集上进行微调和测试，并和前文DenseNet161⁃ImageNet预训练模型和DenseNet169⁃三胞胎网络（使用Hard Triplet Loss）进行对比.实验结果如图5所示，余下两种指标详见表3，表中黑体字表示性能最优.可见DenseNet169⁃三胞胎网络（Hard Triplet Loss）的三种指标均领先于所有ImageNet预训练模型，DenseNet161⁃ImageNet预训练模型仅次于三胞胎网络.MoCo⁃v2，BYOL和SwAV的表现基本一致，AUC在0.752~0.764，灵敏度和特异度均在0.665~0.676.原因可能是MoCo⁃v2，BYOL和SwAV三种模型虽然能较好地学习自然图像域的分布，但其自然图像与医学图像内秉的分布不同，所以模型不能很好地跨数据集泛化.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 三胞胎网络和其他SOTA预训练模型的AUC对比

Fig.5 AUC of our Triplet Network and other SOTA models

表3 三胞胎网络和其他SOTA预训练模型的实验结果对比

Table 3 Experimental results of our Triplet Network and other SOTA models

Model	AUC	Sensitivity	Specificity
DenseNet169⁃三胞胎网络 (Hard Triplet Loss)	0.952	0.890	0.890
MoCo⁃v2	0.756	0.674	0.674
BYOL	0.764	0.676	0.676
SwAV	0.752	0.665	0.665
DenseNet161⁃ImageNet 预训练模型	0.899	0.820	0.820

新窗口打开| 下载CSV

3.4　小数据集训练

本文的主要思想是使用视频流数据对模型进行预训练，从而降低对标注数据量的要求，以解决标注数据缺乏和模型过拟合等问题.为此，需测试模型对小样本需求的下限.

从SYU数据集中随机划分出四个独立小数据集，对每个小数据集进行五折交叉验证.四个小数据集的样本数分别是：80（64个样本用于训练，16个样本用于测试，简记为64/16），120（96/24），175（140/35）和190（152/38）.

在基于对比学习方法对乳腺超声肿瘤的自动识别和分类任务上，之前的一个SOTA工作提出了一个多任务框架，利用单个病变的多个视图之间的关系开展对比学习^［35］.我们重现了这一模型，本文命名为Multi⁃task LR（Lesion Recognition），并采用和我们的模型一样的预训练和微调数据集进行训练和测试.

图6给出了五种模型在四个小数据集上的分类性能，包括以DenseNet169为骨架的两种损失函数的三胞胎模型、基于DenseNet169的Image⁃Net预训练模型、随机初始化模型和Multi⁃task LR.由图可见，在最小的数据集1中，三胞胎网络的AUC比DenseNet169⁃ImageNet预训练模型高 $6 %$ ，说明三胞胎模型在训练数据只有64个时，分类性能依然领先.在小数据集2上，损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎网络的AUC超过0.9，在小数据集3和4上，AUC分别是0.929和0.936.DenseNet169⁃ImageNet预训练模型和随机初始化模型的AUC均低于0.86.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 两种损失函数的DenseNet169⁃三胞胎网络、Multi⁃task LR模型、DenseNet169⁃ImageNet预训练模型和随机初始化模型在四个小数据集上AUC的对比

Fig.6 AUC of Triplet Network based on DenseNet169 with two loss functions，Multi-task LR model，DenseNet169⁃ImageNet pre⁃trained model and stochastic initialization model on four small datasets

临床上，灵敏度在辅助诊断系统中占有重要地位.如表4所示，损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎模型在小数据集2上的灵敏度是0.835，在小数据集3和4上均超过0.86，而DenseNet169⁃ImageNet预训练模型的灵敏度均低于0.77.

表4 两种损失函数的DenseNet169⁃三胞胎网络、Multi⁃task LR模型、DenseNet169⁃ImageNet预训练模型和随机初始化模型在四个小数据集上三种评价指标的对比

Table 4 Three evaluation indicators of Triplet Network based on DenseNet169 with two loss functions，Multi⁃task LR model，ImageNet pre⁃trained model based on DenseNet169 and stochastic initialization model on four small datasets

小数据集 1 64个训练， 16个测试		AUC	Sensitivity	Specificity
	随机初始化	0.727	0.683	0.683
	ImageNet预训练模型	0.743	0.667	0.667
	DenseNet169⁃三胞胎网络(Hard Triplet Loss)	0.800	0.724	0.724
	DenseNet169⁃三胞胎网络(InfoNCE Loss)	0.800	0.734	0.734
	Multi⁃task LR模型	0.743	0.661	0.661
小数据集 2 96个训练， 24个测试	随机初始化	0.836	0.769	0.769
	ImageNet预训练模型	0.852	0.764	0.764
	DenseNet169⁃三胞胎网络(Hard Triplet Loss)	0.901	0.835	0.835
	DenseNet169⁃三胞胎网络(InfoNCE Loss)	0.867	0.809	0.809
	Multi⁃task LR模型	0.900	0.833	0.833
小数据集 3 140个训练， 35个测试	随机初始化	0.859	0.793	0.793
	ImageNet预训练模型	0.842	0.754	0.754
	DenseNet169⁃三胞胎网络(Hard Triplet Loss)	0.929	0.865	0.865
	DenseNet169⁃三胞胎网络(InfoNCE Loss)	0.889	0.818	0.818
	Multi⁃task LR模型	0.897	0.834	0.834
小数据集 4 152个训练， 38个测试	随机初始化	0.832	0.776	0.776
	ImageNet预训练模型	0.848	0.760	0.760
	DenseNet169⁃三胞胎网络(Hard Triplet Loss)	0.936	0.870	0.870
	DenseNet169⁃三胞胎网络(InfoNCE Loss)	0.901	0.837	0.837
	Multi⁃task LR模型	0.929	0.868	0.868

新窗口打开| 下载CSV

从图6和表4可见，本文提出的模型在所有数据集上的各个评价指标都高于Multi⁃task LR模型，说明本文提出的模型框架更优.

综上，对于损失函数为Hard Triplet Loss的DenseNet169⁃三胞胎模型，仅需96个标注数据进行微调，就能使模型的分类性能达到一个较好的结果（AUC为0.901，敏感度为0.835），极大降低了基于监督学习的方法对标注数据的依赖，在医疗影像人工智能辅助诊断领域有重要的价值.

4 结论

基于深度学习的医学影像辅助诊断系统在相关领域发挥着越来越大的作用，降低其对标注数据的依赖有很大的学术价值和应用价值.本文从乳腺超声视频流出发，根据病人、视频相邻帧等信息，构建包含目标样本和正负样本的非标注数据集，并通过自监督对比学习对一个三胞胎网络进行预训练，然后把模型迁移到下游小样本乳腺肿瘤良恶性分类任务中，以解决医疗数据中标注数据缺乏的问题.本文还提出多近邻采样及平均化方法扩充正样本数量，并利用Hard Negative Mining和Hard Positive Mining方法挑选困难正负样本以构建损失函数，加快模型收敛、提高预测精度.

从实验结果可见，经过预训练的三胞胎网络在SYU数据集上的AUC最高可达0.952，和基于DenseNet框架的ImageNet预训练模型相比，平均高 $6.7 %$ ，比MoCo⁃v2，BYOL和SwAV三种ImageNet预训练模型平均高 $19.47 %$ ，灵敏度和特异度均达到0.89，说明本文模型的分类性能优于ImageNet预训练模型.此外，与之前的一个针对乳腺超声的多视图对比模型相比，本文模型具有更好的分类性能.最后，通过对标注样本量需求下限的测试，发现仅需96个微调数据模型就能出色地完成下游分类任务.

本文模型还可在以下方面继续优化，包括优化网络架构以提高训练速度，进行多中心合作以扩充数据集，融合多个模态如X射线、磁共振等数据.另外，肿瘤分类任务可与其他如异常检测、分割和定位等相关任务联合进行多任务学习，通过共享特征表示来提高模型的性能和泛化能力.还可以和传统的基于影像组学的方法融合，输入不同类型和分级的肿瘤形状、纹理等特征来加快收敛和提高泛化能力.为了将研究成果转化为实际临床应用，还需对不同来源的数据集进行微调和测试，增强其泛化能力和鲁棒性，并最终在真实的医疗环境中进行验证.最后，增强模型的可解释性，也是临床应用上需要关注的方面.

综上，本文基于深度学习和自监督对比学习技术，从乳腺超声视频流出发，搭建数据集、预训练了一个三胞胎网络模型，并应用于下游肿瘤分类任务.测试结果优于同类SOTA模型，并在只有少量标签数据的情况下，可达到良好的分类性能，有较好的临床应用前景.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Noble

J A

， Boukerroui

Ultrasound image segmentation：A survey

IEEE Transactions on Medical Imaging，2006，25(8)：987-1010.