南京大学学报(自然科学), 2023, 59(6): 996-1002 doi: 10.13232/j.cnki.jnju.2023.06.009

基于俯视角融合的多模态三维目标检测

钱多, 殷俊,

上海海事大学信息工程学院, 上海,201306

Multi⁃modal 3D object detection based on Bird⁃Eye⁃View fusion

Qian Duo, Yin Jun,

College of Information Engineering,Shanghai Maritime University,Shanghai,201306,China

通讯作者: E⁃mail:junyin@shmtu.edu.cn

收稿日期: 2023-08-10  

基金资助: 上海市浦江人才计划.  22PJD029

Received: 2023-08-10  

摘要

三维目标检测中图像数据难以获得目标距离信息,点云数据难以获得目标类别信息,为此提出一种将图像转为俯视角特征的方法,将多尺度图像特征按水平维度展平,通过稠密变换层转变为多尺度图像俯视角特征,最终重塑为全局图像俯视角特征.在此基础上,提出一种基于俯视角融合的多模态三维目标检测网络,利用特征拼接或元素相加的方法融合图像俯视角特征与点云俯视角特征.在KITTI数据集上的实验表明,提出的基于俯视角融合的多模态三维目标检测网络对于车辆、行人目标的检测效果优于其他流行的三维目标检测方法.

关键词: 三维目标检测 ; 多模态融合 ; 点云 ; 俯视角 ; 深度学习

Abstract

In order to solve the problem that it is difficult to obtain target distance information from image data and target category information from point cloud data in 3D object detection,a method is proposed to convert the image into Bird⁃Eye⁃View features. This method flattens the multi⁃scale image features according to horizontal dimensions and transforms them into multi⁃scale image Bird⁃Eye⁃View features through dense transformation layers,and finally reshapes them into global image top angle features. On this basis,a multi⁃modal 3D object detection network based on Bird⁃Eye⁃View fusion is proposed to fuse the Bird⁃Eye⁃View features of image and point cloud with feature concating or element addition. Experiments on KITTI data set show that the multi⁃modal 3D object detection network based on Bird⁃Eye⁃View fusion proposed in this paper is better than other popular 3D object detection methods for vehicles and pedestrians.

Keywords: 3D object detection ; multi⁃modal fusion ; point cloud ; Bird⁃Eye⁃View ; deep learning

PDF (648KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

钱多, 殷俊. 基于俯视角融合的多模态三维目标检测. 南京大学学报(自然科学)[J], 2023, 59(6): 996-1002 doi:10.13232/j.cnki.jnju.2023.06.009

Qian Duo, Yin Jun. Multi⁃modal 3D object detection based on Bird⁃Eye⁃View fusion. Journal of nanjing University[J], 2023, 59(6): 996-1002 doi:10.13232/j.cnki.jnju.2023.06.009

实现自动驾驶系统的必要条件是车辆能正确识别并检测三维环境中的各个目标,摄像机和激光雷达是目前三维目标检测领域中使用最多的两种传感器,分别生成图像数据和点云数据.对于单模态数据方法,由于图像缺少深度信息,难以获取与目标的距离,所以基于图像的方法通常将图像投影至俯视角平面1,学习特征的深度信息2或检测关键点3,但这类方法获取的深度信息受限于图像视野,对遮挡或阻隔的物体难以检测.由于点云能获取精准的深度信息,所以基于激光雷达的方法能在三维空间中提取特征,SECOND4将点云先处理成体素形式,并提出稀疏三维卷积减少内存使用.PointPillars5将点云信息投影至俯视图平面,形成伪二维图像.陆慧敏和杨朔6将体素全局特征和点云局部特征相结合.但这类方法受限于点云数据的分辨率,对远距离物体的识别较困难7,而融合多模态数据能够很好地弥补两种数据的缺点,基于多模态融合的方法中的数据之间能够信息互补,补充单模态数据获取不到的信息8.

1 三维目标检测相关工作

Frustum PointNet9和Frustum ConvNet10使用成熟的二维检测器生成二维候选框,再将该候选框转变为三维视锥框,最后对该三维框进行估计.该类方法非常依赖二维检测器的性能,当目标在图像视野内无法观察到,而点云视野能观察到时,该类方法即失效.MV3D (Multi⁃View 3D Object Detection Network )11首先将多视图融合应用到三维目标检测,将原始点云投影到俯视图和前视图,并提出三维区域建议网络在俯视图特征中计算候选区域,将候选区域与点云俯视图、点云前视图和图像特征进行整合,最后将三者深度融合.AVOD (Aggregate View Object Detection )12在前者的基础上舍弃MV3D的前视图点云信息,使用特征金字塔(Feature Pyramid Networks,FPN)13来提高小物体的检测效果,但其总体性能低于纯雷达方法,因为将原始点云转化为俯视角图像时会丢失部分空间信息.BEV⁃Fusion14将点云特征直接按Z轴展平获取俯视角特征,同时对相机图像特征进行深度估计2,将其投影到俯视角平面与点云俯视角特征拼接融合.MMF (Multi⁃Task Multi⁃Sensor Fusion for 3D Object Detection)15用图像信息增强雷达俯视角特征,融合多尺度图像特征,再将融合后的图像特征通过连续卷积层后与多尺度雷达俯视角特征融合,使图像和点云俯视角特征图之间有较准确的对应关系.CLOCs (Camera⁃LiDAR Object Candidates Fusion for 3D Object Detection)16与前几种深度融合方法不同,属于后期融合,利用检测框的语义一致性,将图像检测器检测到的二维框和点云检测器得到的三维框进行融合,其性能很大程度上依赖单模态检测器的检测性能.

上述研究在数据处理阶段将点云数据处理成俯视图形式,而图像数据仅用二维编码器提取特征11-1215,所以在融合阶段多模态特征之间没有很好的对应关系,融合操作反而降低了三维目标的检测效果.将点云数据处理成俯视角特征是目前最有效的方式,如果能将图像信息也处理至俯视角视图,则融合时多模态特征之间会有较强的对应关系,检测效果会更优秀.基于这种考虑,本文提出一种基于俯视角深度融合的多模态三维目标检测网络,主要贡献:(1)将不具备深度信息的图像信息转为俯视角,就能更好地利用跨模态信息;(2)在俯视图视角下选择较合理的深度特征来进行融合操作.

2 基于俯视角深度融合的多模态三维目标检测网络

基于俯视角深度融合的多模态三维目标检测网络的总体结构如图1所示.该网络先将单模态数据用各自的特征提取网络提取特征,对于点云数据使用SECOND (Sparsely Embedded Convolutional Detection)4网络获取俯视角下的点云体素特征,对于图像数据使用ResNet17网络并引入FPN13获得多尺度图像特征,再通过图像稠密变换层转化为图像俯视角特征.在融合阶段,将处理后的图像俯视角特征与点云俯视角特征融合,最后交由三维区域建议网络执行三维目标检测.

图1

图1   本文模型的网络架构

Fig.1   The architecture of the proposed model


2.1 俯视图特征转变

图像特征通过图像稠密变换层转变为俯视角特征,其转变流程如图2所示.由于图像特征缺乏深度信息,网络需要大量的垂直信息来将特征映射到俯视图,但在水平方向上可以使用简单的相机几何体建立俯视图位置和图像位置之间的关系1.二维检测器给出了图像特征B×C×H×W,其中,B为批处理大小,C为图像通道维度,H为图像垂直维度,W为图像水平维度.将图像通道维度C和垂直维度H在图像水平维度W展平得到C×H×W的一维沿水平轴特征,将其通过一维卷积并重塑成尺寸为C×Z×W的张量,其中,Z为深度维度.由于相机透视原因,该张量为相机坐标系下的俯视角特征,在特征维度上二者相同,从H维度到Z维度的转变可以更好地理解重塑的特征.在融合阶段,将所得的俯视角特征用于增强点云特征,而不是直接用于三维目标检测.此外,在多模态方法中可以将相机坐标系中的特征与笛卡尔坐标系中的点云特征进行融合,无须将特征重新采样至同一坐标系15,因为展平操作会消耗大量系统资源,在设置参数时必须谨慎考虑,尤其对于高分辨率的特征图,这种操作可能会导致内存不足.因此,在进行特征展平之前,可以通过卷积等方式来减少内存消耗,同时尽量减少特征的信息损失.

图2

图2   俯视图的特征转变

Fig.2   Feature transformation of Bird⁃Eye⁃View


2.2 多尺度2D特征提取网络

与点云数据相比,RGB图像数据能获取更丰富的环境信息.为了在二维特征提取网络中获取不同尺寸、不同距离的特征,需要转化多个特征图并进行拼接.本文提出的网络模型选择ResNet50+FPN为特征提取网络,将FPN输出的多尺寸特征图转变为俯视角特征并进行拼接,如图3所示,其中,P3,P4,P5,P6,P7为FPN使用的自顶向下及横向连接的策略,最终得到五个输出特征.

图3

图3   多尺度2D特征提取网络

Fig.3   Multi⁃scale 2D feature extraction network


对于FPN给出的多尺寸特征图,其转化得到的俯视角特征尺寸也不同.将多尺度特征通过图像稠密变换层转变为局部俯视角特征,该特征与三维检测网络输出特征仅有通道数不同,再将其按大小在水平维度依次拼接,获得全局图像俯视角特征.对于不同分辨率的特征图,其转变至俯视图的占比也不一样,俯视图占比与分辨率大小成正比,与FPN下采样因子成反比,如下所示:

Sk=2k+3
Zk=1-ski=04si×xmax

其中,Sk为FPN下采样因子,k=0,1,2,3,4Zk为第k个输出层对应的俯视图的距离(单位:m);xmax为点云空间x维度的最大值,实验中取70.4 m.多尺度特征对应的俯视图占比如表1所示.

表1   多尺度特征在俯视图占比

Table 1  Proportion of multi⁃scale features in Bird⁃Eye⁃View

k01234
Sk8163264128
Zk 70.4 m36.418.29.04.52.3
FPNoutputP3P4P5P6P7

新窗口打开| 下载CSV


2.3 多模态特征融合

按照数据在处理过程中的不同阶段可将融合方式分三种:(1)早期融合,即在特征提取前将多传感器数据融合;(2)后期融合,即单模态数据单独检测,在决策阶段进行融合;(3)深度融合,即将中间特征融合8.早期融合是最容易理解的一种融合方式,但在操作时需注意多模态数据之间的差异,如数据表示方式、稀疏度、数据间是否对齐和同步等,这些差异不一定能依靠网络解决,一般需要在数据处理阶段解决.后期融合,对于单模态数据可以选择比较成熟的检测器,多模态数据之间无须考虑同步或对齐问题,只需要在融合阶段校准或标记.深度融合是目前选择最多的融合方式,是在处理过程中结合特征,可以针对不同的网络需求选择融合操作.

本文提出的网络采用深度融合方法,将图像和点云的俯视角特征进行融合.对于图像数据,按2.1和2.2的方法获取图像全局俯视角特征;对于点云数据,采用SECOND4获取点云俯视角特征.SECOND主要包括体素特征编码层、稀疏卷积中间层和三维区域建议网络.体素特征编码层对原始点云信息进行编码再转化为体素信息.与VoxelNet18的直接三维卷积不同,SECOND在稀疏卷积中间层使用多个稀疏卷积进行特征提取,并按Z轴将其压缩为俯视角特征图.将该俯视角特征图与图像俯视角特征图进行融合,对特征的融合操作分别采用拼接和元素平均,这两种方法都广泛用于多模态特征融合.基于图像的特征融合多数倾向元素相加11-12,基于俯视角图像的特征融合更倾向于拼接14.元素相加要求图像特征和点云特征尺寸完全相同,其作用相当于用图像信息加强点云信息,融合后的特征仍然可以看作是点云特征,进行后续的分类和回归.拼接方法在尺寸方面可以有一个维度不同,通常为通道维度并按该维度拼接,融合后的特征不能看作点云特征,需要再通过卷积提取特征后继续后续操作.融合后的特征交由SECOND中的三维区域建议网络执行分类和三维框回归,与FasterRCNN19中的区域建议网络相似,该网络主要用于在主干网络提取的特征中生成边界框.

2.4 网络细节

特征提取阶段,三维检测网络输出特征的尺寸为512,200,176,FPN输出多尺度特征通道数为256.在图像俯视角特征转变阶段,为了减少显存资源的消耗,将各尺寸特征通过卷积核为1×1的二维卷积,使其维度下降至96维并用组归一化.对于卷积后的张量,将通道维度和垂直维度展平,通过卷积核为3的一维卷积,其输入通道为通道数和垂直维度相乘,输出维度为通道数与特征在俯视图占比,再将特征重塑至俯视角平面并将多尺度特征拼接为256,200,176.与三维检测网络输出特征仅有通道数不同,在融合阶段,对于拼接操作,二者按照通道维度拼接得到768,200,176的特征,通过3×3卷积核采样至512,200,176;对于元素相加方法,将图像俯视角特征通过3×3反卷积至512维并按元素融合,最后也同样得到尺寸为512,200,176的特征.

3 三维目标检测实验

本节介绍实验的设置和结果,包括在KITTI数据集上对2D,3D和俯视图(Bird⁃Eye⁃View,BEV)的目标检测,检测了车辆、行人和骑行人三类的3D检测性能,并对车辆类进一步检测其2D和BEV效果.实验结果证明,本文提出的网络优于其他流行的多模态三维目标检测算法.

3.1 数据集

KITTI数据集20包含激光点云数据和相机图像数据,包括7481个训练样本和7518个测试样本,根据目标大小、遮挡程度和截断将标签分为三个难度(简单,中等,困难).

使用两个评价指标.通过精确⁃召回曲线计算得到的平均精度(Average Precision,AP)是一个综合指标,可衡量检测算法在不同置信度水平下的准确度.IoU (Intersection over Union)反映预测模型和现有模型的相似性,被广泛用来评估目标识别技术的准确性.对车辆的2D,3D和BEV评估,IoU的阈值为0.7;对行人和骑行人的3D检测,IoU的阈值为0.5.

3.2 实验设置

检测车辆前方70.4 m、左右40 m内的物体,与点云的获取范围相同.设置点云体素大小为0.05 m,0.05 m,0.1 m,点云体素化后将其输入三维检测网络,每个体素取五个点云的均值作为该体素的值,并取前16000个体素作为卷积中间层的输入.将图像信息随机重塑为640×1922560×768.在单张P100(16 GB)显卡上部署实验,测试检测网络,设置批处理大小为1.网络共训练40个循环,选用Adam优化器并设置其网络初始学习率为0.0001,该学习率按循环数衰减.

3.3 实验结果与分析

将本文提出的网络与流行的多模态方法进行比较,车辆3D检测结果如表2所示,BEV检测结果如表3所示,2D检测结果如表4所示,表中黑体字表示结果最优.

表2   KITTI车辆3D检测结果的平均精度

Table 2  Average Precision of 3D vehicle detection results on KITTI dataset

检测器输入简单中等困难
MV3D[12]Lidar+RGB70.71%63.44%56.02%
AVOD⁃FPN[13]Lidar+RGB81.88%71.94%66.45%
F⁃pointnet[10]Lidar+RGB82.03%71.32%62.19%
MMF[15]Lidar+RGB85.31%75.41%66.31%
SECOND[4]Lidar82.55%70.35%66.67%
Ours(拼接)Lidar+RGB85.53%72.40%70.46%
Ours(元素相加)Lidar+RGB84.23%71.14%70.55%

新窗口打开| 下载CSV


表3   KITTI车辆BEV检测结果的平均精度

Table 3  Average Precision of BEV vehicle detection results on KITTI dataset

检测器输入简单中等困难
MV3D[12]Lidar+RGB86.12%76.78%68.50%
AVOD⁃FPN[13]Lidar+RGB88.53%83.79%77.11%
F⁃pointnet[10]Lidar+RGB87.67%83.89%75.88%
MMF[15]Lidar+RGB89.49%86.56%79.31%
SECOND[4]Lidar91.05%83.16%80.60%
Ours(拼接)Lidar+RGB91.92%85.34%83.22%
Ours(元素相加)Lidar+RGB90.27%84.47%80.18%

新窗口打开| 下载CSV


表4   KITTI车辆2D检测结果的平均精度

Table 4  Average Precision of 2D vehicle detection results on KITTI dataset

检测器输入简单中等困难
MV3D[12]Lidar+RGB90.56%89.45%80.16%
AVOD⁃FPN[13]Lidar+RGB89.79%87.55%80.12%
F⁃pointnet[10]Lidar+RGB90.54%89.84%81.26%
MMF[15]Lidar+RGB91.82%89.77%87.65%
SECOND[4]Lidar---
Ours(拼接)Lidar+RGB95.52%89.61%87.30%
Ours(元素相加)Lidar+RGB94.98%88.72%87.05%

新窗口打开| 下载CSV


本文提出的网络在车辆3D检测任务中表现出微弱优势,虽然在困难子集中的表现显著优于先进的MMF网络,但在中等子集中表现较差,可能是因为中等子集中的样本被部分遮挡,导致各模态俯视图的特征图存在歧义.具体地,在点云俯视图特征图中能认知到车辆,而在图像俯视图特征图中由于视野有限,无法完整认知到车辆,二者融合后导致最终的检测框有偏移,使IoU降低.对于困难子集,由于样本大部分被遮挡,所以在图像俯视图特征图中几乎不会认知到该样本,而在点云俯视图特征图中能被认知,最终检测框没有发生偏移,因此在该子集中表现领先.与基准的SECOND网络相比,拼接方法在简单子集中的检测效果提升2.98%,在困难子集中提升3.70%.在车辆BEV检测中,本文提出的方法存在较明显的优势,在简单子集中领先2.43%,在困难子集中领先3.91%,在中等子集中略微落后,原因与3D检测中落后的原因一致.与SECOND网络相比,在简单子集中的检测效果相差不大,但在困难子集中提升2.62%.在车辆2D检测任务中,本文提出的方法在简单子集中领先约4%,在其他子集中表现相差不大.对于特征融合方法的选择,探讨拼接和元素相加两种方法,实验结果显示差别不明显,总体上拼接略优于元素相加.拼接方法在拼接后对特征作卷积提取特征,而元素相加方法对点云数据的增强没有进一步提取特征,这可能是元素相加方法略逊的原因.

对行人和骑行人做3D检测,结果如表5表6所示,表中黑体字表示结果最优.对于行人,本文提出的网络在简单子集中略微落后,但在中等和困难子集中领先2.11%和2.02%,原因是在点云特征转变为俯视角特征时,行人在点云俯视角特征图中仅占1~2个体素,而融合图像俯视角特征能提高对行人的检测能力.骑行人的检测结果比其他方法大幅落后,可能因为在识别行人和骑行人这两类小目标时,小目标在点云数据中较稀疏,其检测能力依赖二维目标检测,而在二维检测中图像没有被正确识别,融合特征的效果不佳.

表5   KITTI行人3D检测结果的平均精度

Table 5  Average Precision of 3D pedestrian detection results on KITTI dataset

检测器输入简单中等困难
AVOD⁃FPN[13]Lidar+RGB50.80%42.81%40.88%
F⁃pointnet[10]Lidar+RGB51.17%44.56%40.33%
Ours(拼接)Lidar+RGB50.10%46.67%42.35%
Ours(元素相加)Lidar+RGB50.77%45.82%40.16%

新窗口打开| 下载CSV


表6   KITTI骑行人3D检测结果的平均精度

Table 6  Average Precision of 3D cyclist detection results on KITTI dataset

检测器输入简单中等困难
AVOD⁃FPN[13]Lidar+RGB64.00%52.18%46.61%
F⁃pointnet[10]Lidar+RGB71.88%55.59%50.11%
Ours(拼接)Lidar+RGB66.56%49.88%48.72%
Ours(元素相加)Lidar+RGB65.81%48.75%46.83%

新窗口打开| 下载CSV


对检测结果作可视化分析,图4展示了两个样本的最终检测结果,图中蓝色框为预测框,橙色框为真实框,每个样本的上一张图为三维检测框在二维图像中的投影,下一张图为三维检测框在点云视图中的检测情况.如图4a所示,本文提出的网络对近距离和中距离目标的检测效果较好,真实框和预测框在很大程度上重合,但对远距离目标的检测效果较差,没能检测到远距离的轿车.原因可能是图像信息对远距离目标经过特征提取后只有1~2个像素,点云信息在俯视图中仅有不到5个体素,二者融合不能增强点云信息,也不能给点云作引导参考.图4b中,本文提出的网络对近距离和中距离目标的检测果较好,图4b中左下角车辆目标被大部分截断,也能正确识别.

图4

图4   三维目标检测结果的可视化

Fig.4   Visualization of 3D object detection results


4 结论

本文提出一种基于俯视角融合的多模态三维目标检测网络,充分利用多模态数据,将图像信息和点云信息转变为俯视角特征并融合,使二者有更深层次的联系,并利用多模态数据之间的信息互补来补充单模态数据获取不到的信息.对融合方法的选择,比较了元素相加和特征拼接两种方法,证明特征拼接方法对俯视角特征融合能得到更好的结果.在KITTI数据集上的实验结果表明,本文提出的网络的车辆和行人检测效果优于其他流行的三维目标检测网络.

将多尺度图像特征转变为俯视角特征的方法仍然存在数据处理时间较长和小目标检测效果不佳的问题,需要进一步调整网络来改进.此外,数据处理方面可以使用不同的图像和点云特征提取方式,如原始点云或点柱方法;在俯视图转变方面,需要减少特征转变的时间,如减少卷积和反卷积次数;在融合方式方面,可以尝试多种方法,如元素加权平均和深度多次融合等.

参考文献

Roddick TCipolla R.

Predicting semantic map representations from images using pyramid occupancy networks

Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE202011135-11144.

[本文引用: 2]

Philion JLift Fidler S.splat

shoot:Encoding images from arbitrary camera rigs by implicitly unprojecting to 3

D∥Proceedings of the 16th European Conference on Computer Vision. Springer Berlin Heidelberg2020194-210.

[本文引用: 2]

迟旭然裴伟朱永英.

Fast Stereo⁃RCNN三维目标检测算法

小型微型计算机系统,202243(10):2157-2161.

[本文引用: 1]

Chi X RPei WZhu Y Yet al.

Fast Stereo⁃RCNN 3D target detection algorithm

Journal of Chinese Computer Systems,202243(10):2157-2161.

[本文引用: 1]

Yan YMao Y XLi B.

SECOND:Sparsely embedded convolutional detection

Sensors,201818(10):3337.

[本文引用: 6]

Lang A HVora SCaesar Het al.

PointPillars:Fast encoders for object detection from point clouds

Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE201912689-12697.

[本文引用: 1]

陆慧敏杨朔.

基于深度神经网络的自动驾驶场景三维目标检测算法

北京工业大学学报,202248(6):589-597.

[本文引用: 1]

Lu H MYang S.

Three⁃dimensional object detection algorithm based on deep neural networks for automatic driving

Journal of Beijing University of Technology,202248(6):589-597.

[本文引用: 1]

张燕咏张莎张昱.

基于多模态融合的自动驾驶感知及计算

计算机研究与发展,202057(9):1781-1799.

[本文引用: 1]

Zhang Y YZhang SZhang Yet al.

Multi⁃modality fusion perception and computing in autonomous driving

Journal of Computer Research and Development,202057(9):1781-1799.

[本文引用: 1]

王亚东田永林李国强.

基于卷积神经网络的三维目标检测研究综述

模式识别与人工智能,202134(12):1103-1119.

[本文引用: 2]

Wang Y DTian Y LLi G Qet al.

3D object detection based on convolu⁃tional neural networks:a survey

Pattern Recognition and Artificial Intelligence,202134(12):1103-1119.

[本文引用: 2]

Qi C RLiu WWu C Xet al.

Frustum PointNets for 3D object detection from RGB⁃D data

Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE2018918-927.

[本文引用: 1]

Wang Z XJia K.

Frustum ConvNet:Sliding frustums to aggregate local point⁃wise features for amodal 3D object detection

Proceedings of 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems. Macau,ChinaIEEE20191742-1749.

[本文引用: 6]

Chen X ZMa H MWan Jet al.

Multi⁃view 3D object detection network for autonomous driving

Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE20176526-6534.

[本文引用: 3]

Ku JMozifian MLee Jet al.

Joint 3D proposal generation and object detection from view aggregation

Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid,SpainIEEE20181-8.

[本文引用: 6]

Lin T YDollár PGirshick Ret al.

Feature pyramid networks for object detection

Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE2017936-944.

[本文引用: 7]

Liu Z JTang H TAmini Aet al.

BEVFusion:Multi⁃task multi⁃sensor fusion with unified bird's⁃eye view representation

2022,arXiv:.

[本文引用: 2]

Liang MYang BChen Yet al.

Multi⁃task multi⁃sensor fusion for 3D object detection

Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE20197337-7345.

[本文引用: 6]

Pang SMorris DRadha H.

CLOCs:Camera⁃LiDAR object candidates fusion for 3D object detection

Proceedings of 2020 IEEE/RSJ Inter⁃national Conference on Intelligent Robots and Systems. Las Vegas,NV,USAIEEE202010386-10393.

[本文引用: 1]

He K MZhang X YRen S Qet al.

Deep residual learning for image recognition

Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE2016770-778.

[本文引用: 1]

Zhou YTuzel O.

VoxelNet:End⁃to⁃end learning for point cloud based 3D object detection

Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE20184490-4499.

[本文引用: 1]

Ren S QHe K MGirshick Ret al.

Faster R⁃CNN:Towards real⁃time object detection with region proposal networks

IEEE Transactions on Pattern Analysis and Machine Intelligence,201739(6):1137-1149.

[本文引用: 1]

Geiger ALenz PUrtasun R.

Are we ready for autonomous driving? The KITTI vision benchmark suite

Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence,RI,USAIEEE20123354-3361.

[本文引用: 1]

/