基于俯视角融合的多模态三维目标检测
Multi⁃modal 3D object detection based on Bird⁃Eye⁃View fusion
Received: 2023-08-10
关键词:
Keywords:
本文引用格式
钱多, 殷俊.
Qian Duo, Yin Jun.
实现自动驾驶系统的必要条件是车辆能正确识别并检测三维环境中的各个目标,摄像机和激光雷达是目前三维目标检测领域中使用最多的两种传感器,分别生成图像数据和点云数据.对于单模态数据方法,由于图像缺少深度信息,难以获取与目标的距离,所以基于图像的方法通常将图像投影至俯视角平面[1],学习特征的深度信息[2]或检测关键点[3],但这类方法获取的深度信息受限于图像视野,对遮挡或阻隔的物体难以检测.由于点云能获取精准的深度信息,所以基于激光雷达的方法能在三维空间中提取特征,SECOND[4]将点云先处理成体素形式,并提出稀疏三维卷积减少内存使用.PointPillars[5]将点云信息投影至俯视图平面,形成伪二维图像.陆慧敏和杨朔[6]将体素全局特征和点云局部特征相结合.但这类方法受限于点云数据的分辨率,对远距离物体的识别较困难[7],而融合多模态数据能够很好地弥补两种数据的缺点,基于多模态融合的方法中的数据之间能够信息互补,补充单模态数据获取不到的信息[8].
1 三维目标检测相关工作
Frustum PointNet[9]和Frustum ConvNet[10]使用成熟的二维检测器生成二维候选框,再将该候选框转变为三维视锥框,最后对该三维框进行估计.该类方法非常依赖二维检测器的性能,当目标在图像视野内无法观察到,而点云视野能观察到时,该类方法即失效.MV3D (Multi⁃View 3D Object Detection Network )[11]首先将多视图融合应用到三维目标检测,将原始点云投影到俯视图和前视图,并提出三维区域建议网络在俯视图特征中计算候选区域,将候选区域与点云俯视图、点云前视图和图像特征进行整合,最后将三者深度融合.AVOD (Aggregate View Object Detection )[12]在前者的基础上舍弃MV3D的前视图点云信息,使用特征金字塔(Feature Pyramid Networks,FPN)[13]来提高小物体的检测效果,但其总体性能低于纯雷达方法,因为将原始点云转化为俯视角图像时会丢失部分空间信息.BEV⁃Fusion[14]将点云特征直接按Z轴展平获取俯视角特征,同时对相机图像特征进行深度估计[2],将其投影到俯视角平面与点云俯视角特征拼接融合.MMF (Multi⁃Task Multi⁃Sensor Fusion for 3D Object Detection)[15]用图像信息增强雷达俯视角特征,融合多尺度图像特征,再将融合后的图像特征通过连续卷积层后与多尺度雷达俯视角特征融合,使图像和点云俯视角特征图之间有较准确的对应关系.CLOCs (Camera⁃LiDAR Object Candidates Fusion for 3D Object Detection)[16]与前几种深度融合方法不同,属于后期融合,利用检测框的语义一致性,将图像检测器检测到的二维框和点云检测器得到的三维框进行融合,其性能很大程度上依赖单模态检测器的检测性能.
2 基于俯视角深度融合的多模态三维目标检测网络
图1
2.1 俯视图特征转变
图像特征通过图像稠密变换层转变为俯视角特征,其转变流程如图2所示.由于图像特征缺乏深度信息,网络需要大量的垂直信息来将特征映射到俯视图,但在水平方向上可以使用简单的相机几何体建立俯视图位置和图像位置之间的关系[1].二维检测器给出了图像特征
图2
2.2 多尺度2D特征提取网络
与点云数据相比,RGB图像数据能获取更丰富的环境信息.为了在二维特征提取网络中获取不同尺寸、不同距离的特征,需要转化多个特征图并进行拼接.本文提出的网络模型选择ResNet50+FPN为特征提取网络,将FPN输出的多尺寸特征图转变为俯视角特征并进行拼接,如图3所示,其中,P3,P4,P5,P6,P7为FPN使用的自顶向下及横向连接的策略,最终得到五个输出特征.
图3
对于FPN给出的多尺寸特征图,其转化得到的俯视角特征尺寸也不同.将多尺度特征通过图像稠密变换层转变为局部俯视角特征,该特征与三维检测网络输出特征仅有通道数不同,再将其按大小在水平维度依次拼接,获得全局图像俯视角特征.对于不同分辨率的特征图,其转变至俯视图的占比也不一样,俯视图占比与分辨率大小成正比,与FPN下采样因子成反比,如下所示:
其中,
表1 多尺度特征在俯视图占比
Table 1
k | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
8 | 16 | 32 | 64 | 128 | |
36.4 | 18.2 | 9.0 | 4.5 | 2.3 | |
FPNoutput | P3 | P4 | P5 | P6 | P7 |
2.3 多模态特征融合
按照数据在处理过程中的不同阶段可将融合方式分三种:(1)早期融合,即在特征提取前将多传感器数据融合;(2)后期融合,即单模态数据单独检测,在决策阶段进行融合;(3)深度融合,即将中间特征融合[8].早期融合是最容易理解的一种融合方式,但在操作时需注意多模态数据之间的差异,如数据表示方式、稀疏度、数据间是否对齐和同步等,这些差异不一定能依靠网络解决,一般需要在数据处理阶段解决.后期融合,对于单模态数据可以选择比较成熟的检测器,多模态数据之间无须考虑同步或对齐问题,只需要在融合阶段校准或标记.深度融合是目前选择最多的融合方式,是在处理过程中结合特征,可以针对不同的网络需求选择融合操作.
本文提出的网络采用深度融合方法,将图像和点云的俯视角特征进行融合.对于图像数据,按2.1和2.2的方法获取图像全局俯视角特征;对于点云数据,采用SECOND[4]获取点云俯视角特征.SECOND主要包括体素特征编码层、稀疏卷积中间层和三维区域建议网络.体素特征编码层对原始点云信息进行编码再转化为体素信息.与VoxelNet[18]的直接三维卷积不同,SECOND在稀疏卷积中间层使用多个稀疏卷积进行特征提取,并按Z轴将其压缩为俯视角特征图.将该俯视角特征图与图像俯视角特征图进行融合,对特征的融合操作分别采用拼接和元素平均,这两种方法都广泛用于多模态特征融合.基于图像的特征融合多数倾向元素相加[11-12],基于俯视角图像的特征融合更倾向于拼接[14].元素相加要求图像特征和点云特征尺寸完全相同,其作用相当于用图像信息加强点云信息,融合后的特征仍然可以看作是点云特征,进行后续的分类和回归.拼接方法在尺寸方面可以有一个维度不同,通常为通道维度并按该维度拼接,融合后的特征不能看作点云特征,需要再通过卷积提取特征后继续后续操作.融合后的特征交由SECOND中的三维区域建议网络执行分类和三维框回归,与FasterRCNN[19]中的区域建议网络相似,该网络主要用于在主干网络提取的特征中生成边界框.
2.4 网络细节
特征提取阶段,三维检测网络输出特征的尺寸为
3 三维目标检测实验
本节介绍实验的设置和结果,包括在KITTI数据集上对2D,3D和俯视图(Bird⁃Eye⁃View,BEV)的目标检测,检测了车辆、行人和骑行人三类的3D检测性能,并对车辆类进一步检测其2D和BEV效果.实验结果证明,本文提出的网络优于其他流行的多模态三维目标检测算法.
3.1 数据集
KITTI数据集[20]包含激光点云数据和相机图像数据,包括7481个训练样本和7518个测试样本,根据目标大小、遮挡程度和截断将标签分为三个难度(简单,中等,困难).
使用两个评价指标.通过精确⁃召回曲线计算得到的平均精度(Average Precision,AP)是一个综合指标,可衡量检测算法在不同置信度水平下的准确度.IoU (Intersection over Union)反映预测模型和现有模型的相似性,被广泛用来评估目标识别技术的准确性.对车辆的2D,3D和BEV评估,IoU的阈值为0.7;对行人和骑行人的3D检测,IoU的阈值为0.5.
3.2 实验设置
检测车辆前方70.4 m、左右40 m内的物体,与点云的获取范围相同.设置点云体素大小为
3.3 实验结果与分析
表2 KITTI车辆3D检测结果的平均精度
Table 2
表3 KITTI车辆BEV检测结果的平均精度
Table 3
表4 KITTI车辆2D检测结果的平均精度
Table 4
本文提出的网络在车辆3D检测任务中表现出微弱优势,虽然在困难子集中的表现显著优于先进的MMF网络,但在中等子集中表现较差,可能是因为中等子集中的样本被部分遮挡,导致各模态俯视图的特征图存在歧义.具体地,在点云俯视图特征图中能认知到车辆,而在图像俯视图特征图中由于视野有限,无法完整认知到车辆,二者融合后导致最终的检测框有偏移,使IoU降低.对于困难子集,由于样本大部分被遮挡,所以在图像俯视图特征图中几乎不会认知到该样本,而在点云俯视图特征图中能被认知,最终检测框没有发生偏移,因此在该子集中表现领先.与基准的SECOND网络相比,拼接方法在简单子集中的检测效果提升2.98%,在困难子集中提升3.70%.在车辆BEV检测中,本文提出的方法存在较明显的优势,在简单子集中领先2.43%,在困难子集中领先3.91%,在中等子集中略微落后,原因与3D检测中落后的原因一致.与SECOND网络相比,在简单子集中的检测效果相差不大,但在困难子集中提升2.62%.在车辆2D检测任务中,本文提出的方法在简单子集中领先约4%,在其他子集中表现相差不大.对于特征融合方法的选择,探讨拼接和元素相加两种方法,实验结果显示差别不明显,总体上拼接略优于元素相加.拼接方法在拼接后对特征作卷积提取特征,而元素相加方法对点云数据的增强没有进一步提取特征,这可能是元素相加方法略逊的原因.
表5 KITTI行人3D检测结果的平均精度
Table 5
表6 KITTI骑行人3D检测结果的平均精度
Table 6
图4
4 结论
本文提出一种基于俯视角融合的多模态三维目标检测网络,充分利用多模态数据,将图像信息和点云信息转变为俯视角特征并融合,使二者有更深层次的联系,并利用多模态数据之间的信息互补来补充单模态数据获取不到的信息.对融合方法的选择,比较了元素相加和特征拼接两种方法,证明特征拼接方法对俯视角特征融合能得到更好的结果.在KITTI数据集上的实验结果表明,本文提出的网络的车辆和行人检测效果优于其他流行的三维目标检测网络.
将多尺度图像特征转变为俯视角特征的方法仍然存在数据处理时间较长和小目标检测效果不佳的问题,需要进一步调整网络来改进.此外,数据处理方面可以使用不同的图像和点云特征提取方式,如原始点云或点柱方法;在俯视图转变方面,需要减少特征转变的时间,如减少卷积和反卷积次数;在融合方式方面,可以尝试多种方法,如元素加权平均和深度多次融合等.
参考文献
Predicting semantic map representations from images using pyramid occupancy networks
∥
shoot:Encoding images from arbitrary camera rigs by implicitly unprojecting to 3
D∥
Fast Stereo⁃RCNN三维目标检测算法
,
Fast Stereo⁃RCNN 3D target detection algorithm
,
PointPillars:Fast encoders for object detection from point clouds
∥
基于深度神经网络的自动驾驶场景三维目标检测算法
,
Three⁃dimensional object detection algorithm based on deep neural networks for automatic driving
,
基于多模态融合的自动驾驶感知及计算
,
Multi⁃modality fusion perception and computing in autonomous driving
,
基于卷积神经网络的三维目标检测研究综述
,
3D object detection based on convolu⁃tional neural networks:a survey
,
Frustum PointNets for 3D object detection from RGB⁃D data
∥
Frustum ConvNet:Sliding frustums to aggregate local point⁃wise features for amodal 3D object detection
∥
Multi⁃view 3D object detection network for autonomous driving
∥
Joint 3D proposal generation and object detection from view aggregation
∥
Feature pyramid networks for object detection
∥
BEVFusion:Multi⁃task multi⁃sensor fusion with unified bird's⁃eye view representation
Multi⁃task multi⁃sensor fusion for 3D object detection
∥
CLOCs:Camera⁃LiDAR object candidates fusion for 3D object detection
∥
Deep residual learning for image recognition
∥
VoxelNet:End⁃to⁃end learning for point cloud based 3D object detection
∥
Faster R⁃CNN:Towards real⁃time object detection with region proposal networks
,
Are we ready for autonomous driving? The KITTI vision benchmark suite
∥
/
〈 | 〉 |