面向站口行人检测的改进型Yolov5s算法

doi:10.13232/j.cnki.jnju.2024.01.009

面向站口行人检测的改进型Yolov5s算法

李林红¹^,², 杨杰^,¹^,², 冯志成¹^,², 朱浩¹

1.江西理工大学电气工程与自动化学院，赣州，341000

2.江西省磁悬浮技术重点实验室，赣州，341000

Improved Yolov5s algorithm for pedestrian detection at station entrances

Li Linhong¹^,², Yang Jie^,¹^,², Feng Zhicheng¹^,², Zhu Hao¹

1.School of Electrical Engineering and Automation, Jiangxi University of Science and Technology，Ganzhou，341000，China

2.Jiangxi Provincial Key Laboratory of Maglev Technology，Jiangxi University of Science and Technology，Ganzhou，341000，China

通讯作者: E⁃mail：yangjie@jxust.edu.cn

收稿日期: 2023-10-27

基金资助:

国家自然科学基金. 62063009

Received: 2023-10-27

摘要

针对现有站口行人检测方法难以在实时性与准确性之间均衡的问题，提出一种改进型的Yolov5s模型用于高效地检测站口行人.首先，基于EfficientNetV1改进提出轻量化主干网络EfficientNet_c，优化网络结构和基本单元堆叠次数，提高模型在浅层对小尺寸目标的特征提取能力和提取速度；其次，通过调整宽度因子为基础模型的1/2，改变模型特征层通道数，在较小的精度损失情况下降低模型参数量；再次，增加小目标检测层，优化模型特征提取能力，提高模型对小目标的敏感度和准确性；最后，利用迁移学习的方式优化模型，增强模型泛化能力，降低学习成本，进一步提升模型精度.在课题组收集的数据集上的实验结果表明，所提算法准确率为92.2%，模型参数量仅为1.4 M.在Tesla P100 GPU上的平均推理速度为7.7 ms，实现模型准确率和推理速度的提升.研究结果为地铁和火车站口的行人检测和流量统计提供了一种可行的解决方案.

关键词： 站口行人检测 ; Yolov5s ; EfficientNet_c ; 宽度因子 ; 小目标检测层 ; 迁移学习

Abstract

Aiming at the problem that existing pedestrian detection method is difficult to strike a balance between real⁃time performance and accuracy，an improved Yolov5s model is proposed for efficient pedestrian detection at station entrances. First，the lightweight main network Efficientnet_c is improved based on the improved EfficientNetV1，and the network structure and stacking times of basic units are optimized to enhance the feature extraction capability and speed of the model for small targets at the shallow layer. Secondly，by adjusting the width factor as 1/2 of the basic model，the channel number of feature layer of the model is changed，and the number of model parameters is reduced in the case of small precision loss. Thirdly，a small target detection layer is added to optimize the feature extraction ability of the model and improve the sensitivity and accuracy of the model to small targets. Finally，transfer learning is used to optimize the model，enhance the generalization ability of the model，reduce the learning cost，and further improve the accuracy of the model. The experimental results on the data set collected by the research group show that the accuracy of the proposed algorithm is 92.2%，and the number of model parameters is only 1.4 M. The average inference speed on Tesla P100 GPU is 7.7 ms，which realizes the improvement of model accuracy and inference speed. The results provide a feasible solution for pedestrian detection and traffic statistics of subway and railway station.

Keywords： pedestrian detection at station entrances ; Yolov5s ; EfficientNet_c ; width factor ; small object detection layer ; transfer learning

PDF (1869KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李林红, 杨杰, 冯志成, 朱浩. 面向站口行人检测的改进型Yolov5s算法. 南京大学学报（自然科学）[J], 2024, 60(1): 87-96 doi:10.13232/j.cnki.jnju.2024.01.009

Li Linhong, Yang Jie, Feng Zhicheng, Zhu Hao. Improved Yolov5s algorithm for pedestrian detection at station entrances. Journal of nanjing University[J], 2024, 60(1): 87-96 doi:10.13232/j.cnki.jnju.2024.01.009

轨道交通具有安全、高效和准时等特点，越来越多的乘客选择乘坐轨道交通工具出行.根据中国城市轨道交通协会的研究报告，城轨交通客运量占全国公共交通客运量的分担比率分别为2020年的38.72%，2021年的43.37%和2022年的45.82%，城轨交通分担公共交通客流比例逐年提高^［1］.随着客流的不断增加，保障乘客的安全成为至关重要的问题.而行人检测技术与客流统计、客流疏导和安全预警等工作息息相关^［2］.其检测结果可以为站点的管理和运营提供客流量和行人流向等数据，从而提高站点的管理和服务质量，在站口安全和数据处理方面发挥着重要作用.

传统行人检测主要依赖于手工设计的特征来进行目标表征，其中常用的特征提取算子包括Haar小波特征^［3］、HOG（Histogram of Oriented Gradient）特征^［4］、LBP（Local Binary Patern）特征^［5］以及SIFT（Scale⁃Invariant Feature Transfor⁃mation）特征^［6］.这些手工特征相对而言比较简单且易于使用，但是也具有明显的局限性：（1）手工特征主要利用行人外观等浅层信息作为判断依据，容易误检；（2）手工特征较难适应视角不同、相互遮挡和姿态变化的行人目标，导致大量漏检.随着人工智能的飞速发展，基于深度学习的行人检测算法取得了显著的成就.与传统方法相比，基于深度学习的算法可以自动更新参数，在不同场景的行人检测任务上具有更好的鲁棒性和更高的准确率.因此本文选用基于深度学习的方法进行行人检测任务.

目前基于深度学习的行人检测算法主要分为两类，一类是以R⁃CNN^［7］，Fast RCNN^［8］和Faster RCNN^［9］为代表的基于候选区域的两阶段算法，这类算法检测精度高，但检测速度慢，实时性较差；另一类是以SSD^［10］和YOLO^［11-14］系列算法为代表的一阶段算法，这类算法检测速度快，实时性好，但检测精度比二阶段算法低.本文针对地铁和火车站口的行人头肩检测人员密度大、流动快，对检测算法实时性和速度要求高，选用一阶段算法进行研究.近年来，一阶段行人检测算法取得了一系列突破性成果^［15-17］.李翔等^［18］提出一种改进Yolov3的密集场景行人检测方法，通过优化目标框和生成更有区分度的深层特征，有效提升了密集场景下遮挡行人的检测效果，缺点是模型参数量大且实时性能较差，不利于轻量化设备的部署.张印辉等^［19］针对红外行人检测的问题，提出一种基于Yolov4_tiny的融合行人目标精细尺度嵌入的多检测层实时检测模型，在提升检测精度的同时加快了检测速度，但难以识别小物体且误识别率较高.

针对上述问题，本文选用精度高、速度快的Yolov5s作为基础模型进行改进.首先，为了提升模型对小目标的检测效果，提出轻量化主干网络EfficientNet_c，优化网络浅层结构；其次，为了降低模型计算量和参数量，在精度下降可接受范围内压缩宽度因子；再次，新增小目标检测层，增强浅层特征与深层特征的融合；最后，使用迁移学习的方法更好地初始化模型权重，提升模型性能.

1 Yolov5s算法

Yolov5分为Yolov5n，Yolov5s，Yolov5m，Yolov5l以及Yolov5x五种不同大小的版本，其中Yolov5s为基础模型，其余四种均为基础模型的变体.随着模型的增大，检测性能会有所提高，但同时也会增加计算量和内存占用，因此本文选用Yolov5s作为基础模型进行改进，在保证一定精度的同时具有参数量较少的优点，其网络结构图如图1所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 Yolov5s结构图

Fig.1 Yolov5s structure diagram

Yolov5s延续使用Yolov4^［14］中的特征提取网络CSPDarknet53作为主干网络，通过五次CBS（Conv_BN_SiLU）标准卷积提取图像特征，并在每次卷积后使用C3模块堆叠特征，最后再使用SPPF模块增强特征图的表达能力.特征融合网络PANet^［20］采用一种新的增强自下向上路径的FPN^［21］结构来改善底层特征的传播，三条通路都将前一阶段的特征映射作为输入，输出特征通过横向连接被添加到自上而下通路的同一阶段特征图中，为下一阶段提供信息.同时，PANet使用自适应特征池化来恢复被破坏的信息路径，有助于聚合每个特征层次上的每个候选区域，避免任意分配的问题.Yolov5s最终预测层是在特征图上应用锚定框，生成带有类别概率、对象得分和包围框的向量.Yolov5s把输入的图像分成大小为 $N \times N$ 的网格，每个网格预测矩形框、置信度、分类概率三个指标.其损失函数定义如下所示：

L_{o s s} = α L_{b o x} + β L_{o b j} + θ L_{c l s}

（1）

其中，α，β和θ分别为不同损失函数的权重系数，L_oss表示Yolov5s损失函数，L_box表示矩形框损失，L_obj表示置信度损失，L_cls表示分类损失.

2 算法设计

本文以构建高精度、低功耗的站口行人检测模型为目标，选取Yolov5s作为基础模型，通过替换主干网络、调整宽度因子、增加小目标检测层和迁移学习的方法改进，改进后的网络结构图如图2所示.图中Conv_BN_SiLU表示普通卷积层、BN层和SiLU激活函数的结合，MBConvBlock_c为本文所提出的基本单元，MBConvBlock为EffcientNetV1^［22］中的基本单元，Concat+C3包含Concat操作和C3模块，UpSampling表示上采样操作，Yolo head表示模型末端的检测头.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 改进的Yolov5s整体结构图

Fig.2 Improved Yolov5s overall structure diagram

2.1　EfficientNet_c

考虑到数据集图片中存在大量小尺寸目标，使用CSPDarknet53作为特征提取网络时，其中的卷积操作不仅会带来过多计算量，还会使得小尺寸目标的特征被进一步稀释，导致检测效果较差.此外，由于目标的尺寸较小，其在图像中占据的像素数也较少，容易被忽略或误判为背景，出现漏检或误检等问题，导致检测效果不佳.相比之下，轻量化网络EfficientNetV1具有自适应卷积核尺寸的方法，可以根据目标大小自动调整卷积核的大小，并且采用多层特征融合的方法，能够在不同层次融合不同尺度的特征信息，在处理小尺寸目标时表现更为出色.因此，选择EfficientNetV1作为特征提取网络，以提高检测精度和实现模型轻量化.图3a为EfficientNetV1中的基本单元MBConvBlock模块，采用了深度可分离卷积（Depthwise Separable Convolution）和跨通道卷积（Squeeze⁃and⁃Excitation）等技术，在保持准确性的同时大大减少了计算量，使得EfficientNetV1在相同准确性下比其他模型更加高效.但深度可分离卷积在网络浅层的速度很慢^［23］，而小目标的检测主要是由网络浅层部分来完成，在网络浅层使用深度可分离卷积会严重拖缓小目标的检测速度和降低准确率.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 MBConvBlock模块和MBConvBlock_c模块

Fig.3 MBConvBlock and MBConvBlock_c module

针对EfficientNetV1在网络浅层检测能力差和速度慢的问题，提出全新的轻量化主干网络EfficientNet_c，在网络浅层使用MBConvBlock_c模块替代原始的MBConvBlock模块，并舍弃主干层末端的SPPF模块，有效提升了主干网络在浅层对小尺寸目标的特征提取能力和效率.MBConvBlock_c模块如图3b所示，将MBConvBlock模块中的深度可分离卷积替换为普通卷积.虽然增加了一定的参数量，但普通卷积在现有设备上的执行效率高于深度卷积，并能更好地捕捉图片特征和拟合数据集，提升模型的性能.深度可分离卷积和普通卷积的计算分别如式（2）和式（3）所示：

P_{D} = D_{k}^{2} \times M \times D_{F}^{2} + M \times N \times D_{F}^{2}

（2）

P_{C} = D_{k}^{2} \times M \times N \times D_{F}^{2}

（3）

其中，P_D是深度可分离卷积计算量，P_C是普通卷积计算量，D_k是卷积核大小，D_F是特征矩阵的宽度和高度，M是输入特征矩阵的通道数，N是输出特征矩阵的通道数.

2.2　宽度因子调整

宽度因子（Width Multiplier）是指在网络架构中控制每个层中卷积核的通道数的参数.宽度因子是一个浮点数，它乘以基本通道数来计算每个层的实际通道数，通常用于调整模型的大小和速度之间的权衡.通过调整宽度因子，改变网络的宽度，从而控制模型的计算复杂度和准确性之间的权衡.较小的宽度因子会减轻计算负担，但可能会导致模型性能下降，较大的宽度因子则会增加计算负担，但可以提高模型性能.

Yolov5s调整宽度因子得到的结果如表1所示.表中括号内为宽度因子， $A_{p}$ 为交并比为0.5时的准确率， $F$ 为计算量， $P$ 为参数量.可以看出，调整宽度因子后，虽然检测精度有一定程度的下降，但模型的计算量和参数量都大幅降低.由此可见，调整宽度因子对模型轻量化有很大的作用.因此，设置宽度因子为0.25来轻量化Yolov5s模型，在精度可接受范围内大幅减少模型计算量和参数量；然后，利用其他优化策略提高模型的精度，在保持模型轻量化的同时提升精度.

表1 不同宽度因子下Yolov5s在CrowdHuman数据集上的性能表现

Table 1 Performance of Yolov5s on the CrowdHuman dataset with different width multiplier

模型	A_p	F （GFlOPs）	P （M）
Yolov5s $(0.25)$	74.9%	4.2	1.7
Yolov5s $(0.5)$	77.9%	15.9	7.0
Yolov5s $(0.75)$	79.6%	35.2	15.8
Yolov5s $(1.0)$	81.3%	61.9	28.0

新窗口打开| 下载CSV

2.3　小目标检测层

使用的数据集是课题组收集的站口行人数据集，数据集中行人目标较小，具有一定的识别难度.同时，由于数据集采用头肩标注的方式，标注框尺寸相较于全身标注更小，在一定程度上又加大了检测难度.虽然模型Yolov5s的最终检测层有80×80，40×40和20×20三种尺寸网格，可以从多尺度检测目标，但由于其主干网络中下采样步幅较大，而小目标样本的尺寸较小，当下采样的步幅超过小目标的尺寸时，会导致特征图中不包含小目标的特征信息，较深的特征图很难学习到小目标的特征信息，导致小目标检测效果差.并且在从浅层向深层提取特征过程中，小目标的响应会逐渐变弱，背景像素的像素点会逐渐增加，导致周围环境的干扰也会影响小目标特征的提取.

因此，针对站口行人目标和头肩标注框小的问题，提出增加一个160×160的小目标检测层.通过融合浅层小尺寸目标特征信息，更好地获得不同尺寸目标的损失情况和位置信息.加入小目标检测层后每个尺寸网格的预测目标和损失函数情况如图4所示.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同尺寸网格的预测情况和损失函数

Fig.4 Predictions and loss functions for meshes of different sizes

将所有网格损失函数值作加权和，即可得到一张训练图像的最后的预测矩形框损失、置信度损失和分类损失函数值，计算公式如式（4）所示.

\begin{array}{l} L_{b o x} = \partial_{1} L_{b o x 160} + \partial_{2} L_{b o x 80} + \partial_{3} L_{b o x 40} + \partial_{4} L_{b o x 20} \\ L_{o b j} = \partial_{1} L_{o b j 160} + \partial_{2} L_{o b j 80} + \partial_{3} L_{o b j 40} + \partial_{4} L_{o b j 20} \\ L_{c l s} = \partial_{1} L_{c l s 160} + \partial_{2} L_{c l s 80} + \partial_{3} L_{c l s 40} + \partial_{4} L_{c l s 20} \end{array}

（4）

其中， $\partial_{1}$ ， $\partial_{2}$ ， $\partial_{3}$ 和 $\partial_{4}$ 分别为各网格损失函数值的权重系数. $L_{b o x 160}$ ， $L_{o b j 160}$ 和 $L_{c l s 160}$ 分别为160×160网格的矩形框损失、置信度损失和分类损失值. $L_{b o x 80}$ ， $L_{o b j 80}$ 和 $L_{c l s 80}$ 分别为80×80网格的矩形框损失、置信度损失和分类损失值. $L_{b o x 40}$ ， $L_{o b j 40}$ 和 $L_{c l s 40}$ 分别为40×40网格的矩形框损失、置信度损失和分类损失值. $L_{b o x 20}$ ， $L_{o b j 20}$ 和 $L_{c l s 20}$ 分别为20×20网格的矩形框损失、置信度损失和分类损失值.

2.4　迁移学习

在传统的机器学习中，每个任务都需要从头开始训练一个独立的模型.但在很多情况下，会有一些与当前任务相关的先前经验，可以利用这些经验来加快训练过程，提高性能.迁移学习就是这样一种方法，允许在相似的任务之间共享模型的知识和经验，将信息从源域迁移至目标域，避免模型从零开始学习，有效降低学习成本.一个域 $D$ 由特征空间 $M$ 和关于样本集 $X$ 的边缘概率分布 $P (X)$ 两部分组成，如下所示：

D = \{M, P (X)\}

（5）

因此只要源域和目标域不同，这两个域中的特征空间边缘概率分布就不同.一个任务 $T$ 是由一个相关的域提供的，由标签空间 $Y$ 和预测函数 $f$ 两部分组成，可以表示为：

T = \{Y, f (X)\}

（6）

其中， $X$ 表示一个样本集，定义如下：

X = \{x |x_{i} \in X, i = 1, \dots, n\}

（7）

图5展示了利用CrowdHuman数据集预训练权重，优化模型的权重参数，增强泛化能力并加快收敛速度，达到提升模型检测精度的效果.具体步骤如下：（1）使用改进后的模型训练CrowdHuman数据集获得预训练权重；（2）在模型开始训练前载入预训练权重.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 模型在CrowdHuman数据集上的预训练权重迁移至本文数据集

Fig.5 The model transferred to paper's datasate with CrowdHuman pre⁃trained weights

3 实验结果与分析

3.1　数据集介绍

采用的实验数据集^［2］由课题组收集标注，包含6196张不同时间、地点以及光照强度的火车站、地铁站行人图片，有效检测目标总计83072个.

3.2　评价指标

对于站口行人检测，检测准确率、模型参数量和检测速度都是衡量模型效果的重要指标，因此采用准确率 $A_{p}$ 、参数量 $P$ 以及推理时间T_avg作为评价指标.

3.3　实验设置及环境

实验平台电脑配置如下：CPU为Intel Core I5⁃8500，搭载两张Tesla P100显卡，操作系统为Ubuntu 14.04，Cuda 10.2，Python 3.7.12，深度学习框架及版本为Pytorch 1.8.2.对数据集执行随机尺寸裁剪、随机翻转和随机亮度变换等数据增强，增强后的图片尺寸为 $640 \times 640$ .选用SGD作为模型优化器，学习率设置为0.01，采用交叉熵损失函数.训练周期设置为200轮，每批次训练16张图像.实验过程中将数据集按8∶1∶1划分成训练集、验证集和测试集.

3.4　消融实验

为了验证本文所提改进点有利于Yolov5s基础模型的性能提升，设置消融实验.首先，为了验证所提改进结构的有效性，用全新的轻量化主干网络EfficientNet_c代替CSPDarkNet53嵌入模型中进行实验；其次，为了验证调整宽度因子对降低模型参数量的有效性，将宽度因子缩减为原来的一半进行实验；再次，为了证明引入检测头对模型的提升效果，在模型末端的检测层中加入小目标检测层进行实验；最后，为了证明迁移学习的方式能够优化网络模型参数，使用迁移学习的方式初始化改进后的Yolov5s模型权重.不同改进策略的训练准确率曲线和损失曲线分别如图6所示.图中 $A_{P}$ 为模型测试的准确率，E为训练过程中模型迭代次数，L为模型测试的损失值.从图6a的训练准确率曲线中可以看出，本文算法与其他改进方法相比，具有更快的收敛速度和更高的准确率.图6b的训练损失曲线中，本文算法损失下降和收敛速度也优于其他改进方法，说明本文算法的泛化能力更好.值得注意的是，最终损失值的大小并不完全是评价模型性能的指标，这是因为不同模型的建模过程不同，使用的损失函数也不相同，因此会造成一定的差异.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 消融实验训练曲线

Fig.6 Ablation experiment training curves

消融实验具体结果如表2所示.可以看出，通过引入全新的轻量化主干网络EfficientNet_c，克服深度可分离卷积在模型浅层运行速度慢和检测效果差的问题，在降低了模型参数量的同时保持了原有模型的检测精度，使得新模型在准确率提升0.1%情况下参数量减少39%；通过调整宽度因子，模型在准确率略微降低的情况下大幅减少了参数量，准确率仅牺牲0.7%，而参数量缩减为原来的26%；通过加入小目标检测层，优化对小目标的检测能力，避免了尺度失真问题，有效降低小尺寸目标的漏检率，使得模型准确率提升了0.7%；最后使用迁移学习的训练方式，利用大模型权重更好地初始化网络参数，有效地增强模型泛化能力，模型准确率提升0.4%.

表2 消融实验结果

Table 2 Ablation result

模型	改进				$A_{p}$	P （M）
模型	EfficientNet_c	宽度因子	小目标检测层	迁移学习	$A_{p}$	P （M）
Yolov5s	-	-	-	-	91.3%	7.0
	√	-	-	-	91.4%	4.3
	-	√	-	-	90.6%	1.8
	-	-	√	-	92.0%	7.7
	-	-	-	√	91.7%	7.0
本文算法	√	√	√	√	92.2%	1.4

新窗口打开| 下载CSV

本文算法通过引入轻量化主干网络、压缩宽度因子、加入小目标检测层以及迁移学习的方法，在课题组收集的数据集上的实验表明，本文所提算法相较改进前的模型，参数量压缩至基础模型的1/5，同时模型准确率提升0.9%.

3.5　算法对比与分析

为了验证本文所提目标检测算法的有效性，进行对比实验，并且选取当下主流的目标检测模型进行评估.图7a为不同模型在课题组数据集上的训练曲线.可以看出，各模型准确率排序由低到高为Faster RCNN，Yolov7_tiny，Yolov3，Yolov5s，Yolov5m和本文算法.Yolov5s虽然参数量较少，但训练效果接近网络结构更加复杂的Yolov5m，优于经典的Faster RCNN，Yolov3模型和最新提出的Yolov7_tiny模型，体现出Yolov5s模型的优秀性能.本文算法基于Yolov5s有所改进，针对小尺寸目标特点优化模型结构，调整特征层通道数，增加小目标检测头，经过整体优化后本文算法准确率超过了一众主流目标检测模型.此外，对各个模型的训练损失值进行对比，如图7b所示，可以看出，本文算法的训练损失值在训练20轮后逐渐收敛，收敛速度优于其他模型.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 各模型在本研究数据集中的训练曲线

Fig.7 Training curves of each model on the research dataset

各模型在课题组数据集上的具体实验结果如表3所示，表中 $O$ 表示模型权重文件大小.可以看出本文所提算法在保证参数量最少的同时准确率优于其他各类算法，在GPU上的推理表现也很优异.改进后的模型准确率比Faster RCNN，Yolov3，Yolov5s，Yolov5m和Yolov7_tiny分别提升14.3%，1.2%，0.9%，0.6%和2.6%，同时模型参数量分别减少了97.4%，97.7%，80.0%，93.3%和76.7%.原因如下：（1）本文算法主干网络基于优秀的轻量级网络EffcientNetV1改进，提出全新主干网络EfficientNet_c和基本单元MBConvBlock_c模块，克服深度可分离卷积在模型浅层运行速度慢和检测效果差的问题，在网络保持轻量化的同时提升精度；（2）将Yolov5s模型的宽度因子进行压缩，实验结果证明，调整宽度因子为0.25时，模型在准确率略微降低的情况下大幅减少了参数量；（3）引入小目标检测层，针对小尺寸的目标物体进行优化，避免了在小目标检测中出现的尺度失真问题，提高了检测精度；（4）迁移学习利用模型在相似大型数据集中的权重，更好地初始化网络参数，有效提升模型的性能.

表3 各模型在本研究数据集上的训练结果对比

Table 3 Comparison of training results of different models on the dataset used in this study

检测算法	$A_{p}$	P (M)	T_avg (ms)	O (MB)
Faster RCNN	77.9%	54.8	69.4	104.6
Yolov3	91.0%	61.5	17.5	117.2
Yolov5s	91.3%	7.0	8.0	13.7
Yolov5m	91.6%	20.9	11.5	40.2
Yolov7_tiny	89.6%	6.0	7.0	11.7
文献[2]	75.4%	-	-	-
本文算法	92.2%	1.4	7.7	3.8

新窗口打开| 下载CSV

3.6　模型测试

为了验证本文所提算法的实际检测性能，调用训练完成的权重文件进行测试，同时标出检测的对象位置.如图8所示，Faster RCNN虽然检测到的行人目标较多，但检测框置信度低，且存在明显的误检现象.Yolov3和Yolov7_tiny模型检测到的行人目标较少，漏检现象严重.Yolov5s和Yolov5m模型虽然检测框置信度较高，但都存在一定的漏检现象，对小尺寸目标检测效果差.而本文算法不仅小目标检测效果好，目标框置信度也很高，有效地避免了误检漏检的问题，具有优异的检测效果.

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 不同算法测试效果对比图

Fig.8 Comparison of test effects of different algorithms

为验证本文算法的泛化能力，选取站台出入口通道图像作为测试集进行检测，如图9所示.图9f为本文算法检测效果图，可以看出本文算法在光线昏暗场景下的检测效果依旧出色，对小尺寸行人目标保持了较低的漏检率.而其他算法如Faster RCNN和Yolov5m在昏暗场景下都存在比较严重的漏检现象.这表明本文算法具有更强的泛化能力，能够适应更多实际场景的检测需求.

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 不同算法昏暗场景下测试对比图

Fig.9 Comparison of different algorithms tested in dim scenes

4 结论

基于Yolov5s改进，提出站口行人检测算法，实现了对大流量行人的有效头肩检测.首先，调整网络结构，提出使用轻量化网络EfficientNet_c替换CSPDarknet53作为模型的特征提取网络，提高网络浅层对小目标的特征提取能力和提取速度，并降低模型参数量；其次，优化网络参数，通过调整宽度因子的方法，使模型在准确率可接受下降范围内减少参数量；再次，新增小目标检测层，增强浅层特征与深层特征的融合能力，克服检测小尺寸时的尺度失真问题，减少头肩小目标在复杂背景下的漏检率；最后，使用迁移学习的方式初始化模型权重，利用先验知识更好地初始化参数和训练模型，提升模型性能.

本文所提算法不仅参数量少，仅为1.7 M，检测精度高，达到92.2%，而且平均单张图片推理速度仅为7.7 ms，实现了高精度、高速度和低成本的站口行人检测.但本文算法对行人头肩遮挡严重和特别密集的场景检测效果仍然有所不足，下一步研究将侧重于遮挡严重和人员密集的轻量化行人检测模型，提高检测精度的同时降低参数量.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

中国城市轨道交通协会

城市轨道交通2022年度统计和分析报告

https://www.camet.org.cn/tjxx/11944，2023-03-31.