基于俯视角融合的多模态三维目标检测

图1 本文模型的网络架构

Fig.1 The architecture of the proposed model

2.1　俯视图特征转变

图像特征通过图像稠密变换层转变为俯视角特征，其转变流程如图2所示.由于图像特征缺乏深度信息，网络需要大量的垂直信息来将特征映射到俯视图，但在水平方向上可以使用简单的相机几何体建立俯视图位置和图像位置之间的关系^［1］.二维检测器给出了图像特征 $(B \times C \times H \times W)$ ，其中，B为批处理大小，C为图像通道维度，H为图像垂直维度，W为图像水平维度.将图像通道维度C和垂直维度H在图像水平维度W展平得到 $(C \times H \times W)$ 的一维沿水平轴特征，将其通过一维卷积并重塑成尺寸为 $(C \times Z \times W)$ 的张量，其中，Z为深度维度.由于相机透视原因，该张量为相机坐标系下的俯视角特征，在特征维度上二者相同，从H维度到Z维度的转变可以更好地理解重塑的特征.在融合阶段，将所得的俯视角特征用于增强点云特征，而不是直接用于三维目标检测.此外，在多模态方法中可以将相机坐标系中的特征与笛卡尔坐标系中的点云特征进行融合，无须将特征重新采样至同一坐标系^［15］，因为展平操作会消耗大量系统资源，在设置参数时必须谨慎考虑，尤其对于高分辨率的特征图，这种操作可能会导致内存不足.因此，在进行特征展平之前，可以通过卷积等方式来减少内存消耗，同时尽量减少特征的信息损失.

图2

图2 俯视图的特征转变

Fig.2 Feature transformation of Bird⁃Eye⁃View

2.2　多尺度2D特征提取网络

与点云数据相比，RGB图像数据能获取更丰富的环境信息.为了在二维特征提取网络中获取不同尺寸、不同距离的特征，需要转化多个特征图并进行拼接.本文提出的网络模型选择ResNet50+FPN为特征提取网络，将FPN输出的多尺寸特征图转变为俯视角特征并进行拼接，如图3所示，其中，P3，P4，P5，P6，P7为FPN使用的自顶向下及横向连接的策略，最终得到五个输出特征.

图3

图3 多尺度2D特征提取网络

Fig.3 Multi⁃scale 2D feature extraction network

对于FPN给出的多尺寸特征图，其转化得到的俯视角特征尺寸也不同.将多尺度特征通过图像稠密变换层转变为局部俯视角特征，该特征与三维检测网络输出特征仅有通道数不同，再将其按大小在水平维度依次拼接，获得全局图像俯视角特征.对于不同分辨率的特征图，其转变至俯视图的占比也不一样，俯视图占比与分辨率大小成正比，与FPN下采样因子成反比，如下所示：

S_{k} = 2^{k + 3}

(1)

Z_{k} = (1 - \frac{s_{k}}{\sum_{i = 0}^{4} s_{i}}) \times x_{m a x}

(2)

其中， $S_{k}$ 为FPN下采样因子， $k = 0,1, 2,3, 4$ ； $Z_{k}$ 为第k个输出层对应的俯视图的距离（单位：m）； $x_{m a x}$ 为点云空间x维度的最大值，实验中取70.4 m.多尺度特征对应的俯视图占比如表1所示.

表1 多尺度特征在俯视图占比

Table 1 Proportion of multi⁃scale features in Bird⁃Eye⁃View

k	0	1	2	3	4
$S_{k}$	8	16	32	64	128
$Z_{k} (70.4 m)$	36.4	18.2	9.0	4.5	2.3
FPN_output	P3	P4	P5	P6	P7

2.3　多模态特征融合

按照数据在处理过程中的不同阶段可将融合方式分三种：（1）早期融合，即在特征提取前将多传感器数据融合；（2）后期融合，即单模态数据单独检测，在决策阶段进行融合；（3）深度融合，即将中间特征融合^［8］.早期融合是最容易理解的一种融合方式，但在操作时需注意多模态数据之间的差异，如数据表示方式、稀疏度、数据间是否对齐和同步等，这些差异不一定能依靠网络解决，一般需要在数据处理阶段解决.后期融合，对于单模态数据可以选择比较成熟的检测器，多模态数据之间无须考虑同步或对齐问题，只需要在融合阶段校准或标记.深度融合是目前选择最多的融合方式，是在处理过程中结合特征，可以针对不同的网络需求选择融合操作.

本文提出的网络采用深度融合方法，将图像和点云的俯视角特征进行融合.对于图像数据，按2.1和2.2的方法获取图像全局俯视角特征；对于点云数据，采用SECOND^［4］获取点云俯视角特征.SECOND主要包括体素特征编码层、稀疏卷积中间层和三维区域建议网络.体素特征编码层对原始点云信息进行编码再转化为体素信息.与VoxelNet^［18］的直接三维卷积不同，SECOND在稀疏卷积中间层使用多个稀疏卷积进行特征提取，并按Z轴将其压缩为俯视角特征图.将该俯视角特征图与图像俯视角特征图进行融合，对特征的融合操作分别采用拼接和元素平均，这两种方法都广泛用于多模态特征融合.基于图像的特征融合多数倾向元素相加^［11-12］，基于俯视角图像的特征融合更倾向于拼接^［14］.元素相加要求图像特征和点云特征尺寸完全相同，其作用相当于用图像信息加强点云信息，融合后的特征仍然可以看作是点云特征，进行后续的分类和回归.拼接方法在尺寸方面可以有一个维度不同，通常为通道维度并按该维度拼接，融合后的特征不能看作点云特征，需要再通过卷积提取特征后继续后续操作.融合后的特征交由SECOND中的三维区域建议网络执行分类和三维框回归，与FasterRCNN^［19］中的区域建议网络相似，该网络主要用于在主干网络提取的特征中生成边界框.

2.4　网络细节

特征提取阶段，三维检测网络输出特征的尺寸为 $[512,200,176]$ ，FPN输出多尺度特征通道数为256.在图像俯视角特征转变阶段，为了减少显存资源的消耗，将各尺寸特征通过卷积核为1×1的二维卷积，使其维度下降至96维并用组归一化.对于卷积后的张量，将通道维度和垂直维度展平，通过卷积核为3的一维卷积，其输入通道为通道数和垂直维度相乘，输出维度为通道数与特征在俯视图占比，再将特征重塑至俯视角平面并将多尺度特征拼接为 $[256,200,176]$ .与三维检测网络输出特征仅有通道数不同，在融合阶段，对于拼接操作，二者按照通道维度拼接得到 $[768,200,176]$ 的特征，通过3×3卷积核采样至 $[512,200,176]$ ；对于元素相加方法，将图像俯视角特征通过3×3反卷积至512维并按元素融合，最后也同样得到尺寸为 $[512,200,176]$ 的特征.

3 三维目标检测实验

本节介绍实验的设置和结果，包括在KITTI数据集上对2D，3D和俯视图（Bird⁃Eye⁃View，BEV）的目标检测，检测了车辆、行人和骑行人三类的3D检测性能，并对车辆类进一步检测其2D和BEV效果.实验结果证明，本文提出的网络优于其他流行的多模态三维目标检测算法.

3.1　数据集

KITTI数据集^［20］包含激光点云数据和相机图像数据，包括7481个训练样本和7518个测试样本，根据目标大小、遮挡程度和截断将标签分为三个难度（简单，中等，困难）.

使用两个评价指标.通过精确⁃召回曲线计算得到的平均精度（Average Precision，AP）是一个综合指标，可衡量检测算法在不同置信度水平下的准确度.IoU （Intersection over Union）反映预测模型和现有模型的相似性，被广泛用来评估目标识别技术的准确性.对车辆的2D，3D和BEV评估，IoU的阈值为0.7；对行人和骑行人的3D检测，IoU的阈值为0.5.

3.2　实验设置

检测车辆前方70.4 m、左右40 m内的物体，与点云的获取范围相同.设置点云体素大小为 $[0.05 m, 0.05 m, 0.1 m]$ ，点云体素化后将其输入三维检测网络，每个体素取五个点云的均值作为该体素的值，并取前16000个体素作为卷积中间层的输入.将图像信息随机重塑为 $(640 \times 192)$ 或 $(2560 \times 768)$ .在单张P100（16 GB）显卡上部署实验，测试检测网络，设置批处理大小为1.网络共训练40个循环，选用Adam优化器并设置其网络初始学习率为0.0001，该学习率按循环数衰减.

3.3　实验结果与分析

将本文提出的网络与流行的多模态方法进行比较，车辆3D检测结果如表2所示，BEV检测结果如表3所示，2D检测结果如表4所示，表中黑体字表示结果最优.

表2 KITTI车辆3D检测结果的平均精度

Table 2 Average Precision of 3D vehicle detection results on KITTI dataset

检测器	输入	简单	中等	困难
MV3D^[12]	Lidar+RGB	70.71%	63.44%	56.02%
AVOD⁃FPN^[13]	Lidar+RGB	81.88%	71.94%	66.45%
F⁃pointnet^[10]	Lidar+RGB	82.03%	71.32%	62.19%
MMF^[15]	Lidar+RGB	85.31%	75.41%	66.31%
SECOND^[4]	Lidar	82.55%	70.35%	66.67%
Ours(拼接)	Lidar+RGB	85.53%	72.40%	70.46%
Ours(元素相加)	Lidar+RGB	84.23%	71.14%	70.55%

表3 KITTI车辆BEV检测结果的平均精度

Table 3 Average Precision of BEV vehicle detection results on KITTI dataset

检测器	输入	简单	中等	困难
MV3D^[12]	Lidar+RGB	86.12%	76.78%	68.50%
AVOD⁃FPN^[13]	Lidar+RGB	88.53%	83.79%	77.11%
F⁃pointnet^[10]	Lidar+RGB	87.67%	83.89%	75.88%
MMF^[15]	Lidar+RGB	89.49%	86.56%	79.31%
SECOND^[4]	Lidar	91.05%	83.16%	80.60%
Ours(拼接)	Lidar+RGB	91.92%	85.34%	83.22%
Ours(元素相加)	Lidar+RGB	90.27%	84.47%	80.18%

表4 KITTI车辆2D检测结果的平均精度

Table 4 Average Precision of 2D vehicle detection results on KITTI dataset

检测器	输入	简单	中等	困难
MV3D^[12]	Lidar+RGB	90.56%	89.45%	80.16%
AVOD⁃FPN^[13]	Lidar+RGB	89.79%	87.55%	80.12%
F⁃pointnet^[10]	Lidar+RGB	90.54%	89.84%	81.26%
MMF^[15]	Lidar+RGB	91.82%	89.77%	87.65%
SECOND^[4]	Lidar	-	-	-
Ours(拼接)	Lidar+RGB	95.52%	89.61%	87.30%
Ours(元素相加)	Lidar+RGB	94.98%	88.72%	87.05%

本文提出的网络在车辆3D检测任务中表现出微弱优势，虽然在困难子集中的表现显著优于先进的MMF网络，但在中等子集中表现较差，可能是因为中等子集中的样本被部分遮挡，导致各模态俯视图的特征图存在歧义.具体地，在点云俯视图特征图中能认知到车辆，而在图像俯视图特征图中由于视野有限，无法完整认知到车辆，二者融合后导致最终的检测框有偏移，使IoU降低.对于困难子集，由于样本大部分被遮挡，所以在图像俯视图特征图中几乎不会认知到该样本，而在点云俯视图特征图中能被认知，最终检测框没有发生偏移，因此在该子集中表现领先.与基准的SECOND网络相比，拼接方法在简单子集中的检测效果提升2.98%，在困难子集中提升3.70%.在车辆BEV检测中，本文提出的方法存在较明显的优势，在简单子集中领先2.43%，在困难子集中领先3.91%，在中等子集中略微落后，原因与3D检测中落后的原因一致.与SECOND网络相比，在简单子集中的检测效果相差不大，但在困难子集中提升2.62%.在车辆2D检测任务中，本文提出的方法在简单子集中领先约4%，在其他子集中表现相差不大.对于特征融合方法的选择，探讨拼接和元素相加两种方法，实验结果显示差别不明显，总体上拼接略优于元素相加.拼接方法在拼接后对特征作卷积提取特征，而元素相加方法对点云数据的增强没有进一步提取特征，这可能是元素相加方法略逊的原因.

对行人和骑行人做3D检测，结果如表5和表6所示，表中黑体字表示结果最优.对于行人，本文提出的网络在简单子集中略微落后，但在中等和困难子集中领先2.11%和2.02%，原因是在点云特征转变为俯视角特征时，行人在点云俯视角特征图中仅占1~2个体素，而融合图像俯视角特征能提高对行人的检测能力.骑行人的检测结果比其他方法大幅落后，可能因为在识别行人和骑行人这两类小目标时，小目标在点云数据中较稀疏，其检测能力依赖二维目标检测，而在二维检测中图像没有被正确识别，融合特征的效果不佳.

表5 KITTI行人3D检测结果的平均精度

Table 5 Average Precision of 3D pedestrian detection results on KITTI dataset

检测器	输入	简单	中等	困难
AVOD⁃FPN^[13]	Lidar+RGB	50.80%	42.81%	40.88%
F⁃pointnet^[10]	Lidar+RGB	51.17%	44.56%	40.33%
Ours(拼接)	Lidar+RGB	50.10%	46.67%	42.35%
Ours(元素相加)	Lidar+RGB	50.77%	45.82%	40.16%

表6 KITTI骑行人3D检测结果的平均精度

Table 6 Average Precision of 3D cyclist detection results on KITTI dataset

检测器	输入	简单	中等	困难
AVOD⁃FPN^[13]	Lidar+RGB	64.00%	52.18%	46.61%
F⁃pointnet^[10]	Lidar+RGB	71.88%	55.59%	50.11%
Ours(拼接)	Lidar+RGB	66.56%	49.88%	48.72%
Ours(元素相加)	Lidar+RGB	65.81%	48.75%	46.83%

对检测结果作可视化分析，图4展示了两个样本的最终检测结果，图中蓝色框为预测框，橙色框为真实框，每个样本的上一张图为三维检测框在二维图像中的投影，下一张图为三维检测框在点云视图中的检测情况.如图4a所示，本文提出的网络对近距离和中距离目标的检测效果较好，真实框和预测框在很大程度上重合，但对远距离目标的检测效果较差，没能检测到远距离的轿车.原因可能是图像信息对远距离目标经过特征提取后只有1~2个像素，点云信息在俯视图中仅有不到5个体素，二者融合不能增强点云信息，也不能给点云作引导参考.图4b中，本文提出的网络对近距离和中距离目标的检测果较好，图4b中左下角车辆目标被大部分截断，也能正确识别.

图4

图4 三维目标检测结果的可视化

Fig.4 Visualization of 3D object detection results

4 结论

本文提出一种基于俯视角融合的多模态三维目标检测网络，充分利用多模态数据，将图像信息和点云信息转变为俯视角特征并融合，使二者有更深层次的联系，并利用多模态数据之间的信息互补来补充单模态数据获取不到的信息.对融合方法的选择，比较了元素相加和特征拼接两种方法，证明特征拼接方法对俯视角特征融合能得到更好的结果.在KITTI数据集上的实验结果表明，本文提出的网络的车辆和行人检测效果优于其他流行的三维目标检测网络.

将多尺度图像特征转变为俯视角特征的方法仍然存在数据处理时间较长和小目标检测效果不佳的问题，需要进一步调整网络来改进.此外，数据处理方面可以使用不同的图像和点云特征提取方式，如原始点云或点柱方法；在俯视图转变方面，需要减少特征转变的时间，如减少卷积和反卷积次数；在融合方式方面，可以尝试多种方法，如元素加权平均和深度多次融合等.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Roddick

， Cipolla

Predicting semantic map representations from images using pyramid occupancy networks

∥Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，WA，USA：IEEE，2020：11135-11144.

[2]

Philion

， Lift

Fidler S.

，splat，

shoot：Encoding images from arbitrary camera rigs by implicitly unprojecting to 3

D∥Proceedings of the 16th European Conference on Computer Vision. Springer Berlin Heidelberg，2020：194-210.

[3]

迟旭然，裴伟，朱永英，等.

Fast Stereo⁃RCNN三维目标检测算法

小型微型计算机系统，2022，43(10)：2157-2161.

Chi

X R

， Pei

， Zhu

Y Y

，et al.

Fast Stereo⁃RCNN 3D target detection algorithm

Journal of Chinese Computer Systems，2022，43(10)：2157-2161.

[4]

Yan

， Mao

Y X

， Li

SECOND：Sparsely embedded convolutional detection

Sensors，2018，18(10)：3337.

[5]

Lang

A H

， Vora

， Caesar

，et al.

PointPillars：Fast encoders for object detection from point clouds

∥Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach，CA，USA：IEEE，2019：12689-12697.

[6]

陆慧敏，杨朔.

基于深度神经网络的自动驾驶场景三维目标检测算法

北京工业大学学报，2022，48(6)：589-597.

H M

， Yang

Three⁃dimensional object detection algorithm based on deep neural networks for automatic driving

Journal of Beijing University of Technology，2022，48(6)：589-597.

[7]

张燕咏，张莎，张昱，等.

基于多模态融合的自动驾驶感知及计算

计算机研究与发展，2020，57(9)：1781-1799.

Zhang

Y Y

， Zhang

，et al.

Multi⁃modality fusion perception and computing in autonomous driving

Journal of Computer Research and Development，2020，57(9)：1781-1799.

[8]

王亚东，田永林，李国强，等.

基于卷积神经网络的三维目标检测研究综述

模式识别与人工智能，2021，34(12)：1103-1119.

Wang

Y D

， Tian

Y L

， Li

G Q

，et al.

3D object detection based on convolu⁃tional neural networks：a survey

Pattern Recognition and Artificial Intelligence，2021，34(12)：1103-1119.

[9]

C R

， Liu

， Wu

C X

，et al.

Frustum PointNets for 3D object detection from RGB⁃D data

∥Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City，UT，USA：IEEE，2018：918-927.

[10]

Wang

Z X

， Jia

Frustum ConvNet：Sliding frustums to aggregate local point⁃wise features for amodal 3D object detection

∥Proceedings of 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems. Macau，China：IEEE，2019：1742-1749.

[11]

Chen

X Z

， Ma

H M

， Wan

，et al.

Multi⁃view 3D object detection network for autonomous driving

∥Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：6526-6534.

[本文引用: 3]

[12]

， Mozifian

， Lee

，et al.

Joint 3D proposal generation and object detection from view aggregation

∥Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid，Spain：IEEE，2018：1-8.

[13]

Lin

T Y

， Dollár

， Girshick

，et al.

Feature pyramid networks for object detection

∥Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：936-944.

[本文引用: 7]

[14]

Liu

Z J

， Tang

H T

， Amini

，et al.

BEVFusion：Multi⁃task multi⁃sensor fusion with unified bird's⁃eye view representation

2022，arXiv:.

[15]

Liang

， Yang

， Chen

，et al.

Multi⁃task multi⁃sensor fusion for 3D object detection

∥Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach，CA，USA：IEEE，2019：7337-7345.

[16]

Pang

， Morris

， Radha

CLOCs：Camera⁃LiDAR object candidates fusion for 3D object detection

∥Proceedings of 2020 IEEE/RSJ Inter⁃national Conference on Intelligent Robots and Systems. Las Vegas，NV，USA：IEEE，2020：10386-10393.

[17]

K M

， Zhang

X Y

， Ren

S Q

，et al.

Deep residual learning for image recognition

∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，NV，USA：IEEE，2016：770-778.

[18]

Zhou

， Tuzel

VoxelNet：End⁃to⁃end learning for point cloud based 3D object detection

∥Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City，UT，USA：IEEE，2018：4490-4499.

[19]

Ren

S Q

， He

K M

， Girshick

，et al.

Faster R⁃CNN：Towards real⁃time object detection with region proposal networks

IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39(6)：1137-1149.

[20]

Geiger

， Lenz

， Urtasun

Are we ready for autonomous driving? The KITTI vision benchmark suite

∥Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence，RI，USA：IEEE，2012：3354-3361.