南京大学学报(自然科学), 2022, 58(2): 336-344 doi: 10.13232/j.cnki.jnju.2022.02.017

基于多尺度特征图像分割的车道线提取方法

汪鹏飞1, 沈庆宏,1, 张维利2, 董文杰2, 陈红梅2

1.南京大学电子科学与工程学院,南京,210023

2.江苏金晓电子信息股份有限公司,南京,210023

Lane extraction method based on multi⁃scale feature image segmentation

Wang Pengfei1, Shen Qinghong,1, Zhang Weili2, Dong Wenjie2, Chen Hongmei2

1.School of Electronic Sciences and Engineering, Nanjing University, Nanjing, 210023, China

2.Genture Electronics Co. , Ltd. , Nanjing, 210023, China

通讯作者: E⁃mail:qhshen@nju.edu.cn

收稿日期: 2022-01-11  

Received: 2022-01-11  

摘要

识别与检测车道线作为自动驾驶感知周围环境的一环,为自主车辆在众多复杂场景中提供交通数据信息参考.为了提取车道线本身含有的交通语义信息,按照实际含义分为不同类别,提出一种多尺度分辨率特征的图像分割方法提取车道线,生成低分辨特征,同时保持高分辨尺度子网.针对卷积神经网络无法充分探索空间信息的局限,引入全自注意力网络结构改进下采样解码部分,将特征图通过嵌入向量映射完成线性采样,再经由全自注意力网络结构提取空间上下文语义信息,最后对图像进行降采样完成最终的下采样过程.利用滑窗多头注意力机制,解决嵌入向量映射层因划分造成边界上下文语义信息的不连续问题.针对改进的模型采用交并比损失函数进行优化,能够在保持精度的情况下正确识别相应类别,交并比和F1系数分别达到49.36%和63.02%.经实际测试,在遮挡、阴影等复杂场景下的车道线识别也能更加准确,具有更好的鲁棒性.

关键词: 自动驾驶 ; 车道线检测 ; 多尺度分辨率 ; 图像分割

Abstract

Lane recognization and detection is a part of autonomous driving to perceive the surrounding environment,and provides traffic data information reference for autonomous vehicles in more complex surroundings. To extract the traffic semantic information contained in the lane itself,it is divided into different categories according to the actual meaning,and a multi⁃scale resolution feature map image segmentation method is proposed to extract the lanes,which generates a low⁃resolution features map while maintaining high⁃resolution scales net. Aiming at the limitation of the convolutional neural network that cannot fully explore the spatial information,Transformer is introduced to improve the down⁃sampling for the decoding part. The feature map is converted to linear sampling through embedding,and then Transfomer is performed to extract the spatial context semantic information. Finally,the completion is completed down⁃sampling through patch merging. The shifted window multi⁃head self⁃attention is used to solve the problem of discontinuity and limitation of boundary context semantic information,which is caused by the embedding partition. The IoU (Intersection over Union) loss function is used to optimize the improved model,which can correctly identify the corresponding category while maintaining accuracy. The IoU results and F1 coefficients reach 49.36% and 63.02%,respectively. In the actual test,lane detection in complex scenes such as occlusion and shadow can be more accurate and has better robustness.

Keywords: autonomous driving ; lane detection ; multi⁃scale resolution ; image segmentation

PDF (1367KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

汪鹏飞, 沈庆宏, 张维利, 董文杰, 陈红梅. 基于多尺度特征图像分割的车道线提取方法. 南京大学学报(自然科学)[J], 2022, 58(2): 336-344 doi:10.13232/j.cnki.jnju.2022.02.017

Wang Pengfei, Shen Qinghong, Zhang Weili, Dong Wenjie, Chen Hongmei. Lane extraction method based on multi⁃scale feature image segmentation. Journal of nanjing University[J], 2022, 58(2): 336-344 doi:10.13232/j.cnki.jnju.2022.02.017

近年来,高级辅助驾驶系统(Advanced Driver Assistance Systems,ADAS)相关技术1成为人工智能领域的研究热点之一,其应用方向衍生出车道保持、自动泊车定位等众多应用场景,同时也涉及安全性、实时性或驾驶行为等相关研究.自动驾驶系统划分为定位、感知、规划和人机界面等各类子问题.车道线作为感知部分的必要数据来源,为车辆正常行驶提供重要交通信息参考.随着深度学习兴起,基于神经网络模型提取车道特征、识别车道线成为新的研究方向2.

车道线通常采用单目摄像头获取,其主要包括形状、颜色、纹理等特征.传统图像方法如霍夫变换在车道线检测的实时性和检测精度上很难达到平衡3.其原理主要是通过边缘滤波检测结合霍夫变换,估计车道标记位置,进行坐标变换表示车道线方向,最后拟合抛物线来检测.但这需要人工调试滤波算子,远远无法满足自动驾驶场景中对车辆的安全性和实时性的要求.遮挡、阴影等复杂场景情况也会对这些算法产生严重干扰,引发鲁棒性问题.

基于神经网络算法研究车道线模型4主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST5网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT6将锚框(Anchor)7和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题.

语义分割8的方法主要利用图像中更丰富的上下文等语义信息,将每个车道变为一个实例,通过像素级的分类进行处理.如CurveLane9网络模型基于该方法利用神经网络架构搜索(Neural Architecture Search,NAS)进行更有效的计算分配,自动融合及捕获远程连贯和准确的曲线信息,解决弯道检测的局限.

尽管卷积神经网络(Convolutional Neural Network,CNN)能提取语义特征,但现有的基于CNN的模型无法充分探索图像行和列的空间能力关系10.这些关系对先验学习车道线的形状对象影响很大,尤其是外观的连续性,往往表现为一条车道线被识别为多条断开的车道线,或是识别缺失,在遮挡或者阴影条件下尤为明显.此外,车道线除了提供位置信息外,自身的颜色、形状包含更复杂的交通实际语义信息,一些方法11只关注实时性,丢失了这些丰富的语义信息.因此,本文在上述研究的基础上,提出引入全自注意力网络结构(Transformer)的模型方法HRTran.该方法基于多尺度分辨率语义分割HRNet网络12编码,将编码下采样替换成线性特性的Transformer结构,提取更丰富的上下文空间信息,利用多头注意力机制(Multi⁃head Self⁃Attention,MSA)解决嵌入向量层映射(Embedding)切分造成的边界语义信息不连续问题,可以提高检测的准确率.针对语义分割特点使用交并比损失函数结合Softmax交叉熵损失函数进行拟合训练,其中输出标签的类别表示实际交通含义信息,可在检测车道的同时输出其交通含义标签.该模型对遮挡、阴影、弯道等场景也有很好的检测效果,在不损失精度的情况下,具有更好的鲁棒性.

1 相关理论

1.1 多尺度特征并行网络

Sun et al12提出的HRNet是典型的多尺度分辨率特征的并行模型,由,用于人体姿态估计任务,其模型结构如图1所示.整个网络的骨干部分(Backbone)分成四组重复残差网络结构块组(Stage),每个残差网络结构块组由若干个残差结构块构成,每个残差块均由残差网络层连接.相邻残差网络结构块组经由一个过渡层(Transition Layer)结构进行下采样产生低分辨率的特征子网,不同尺度特征层通过融合层(Fuse Layer)结构进行信息交互,融合特征.整个编码过程中产生多个并行采样子网.这些并行子网引入交换单元,可重复接收来自其他并行子网的信息.

图 1

图 1   HRNet 网络结构示意图

Fig.1   HRNet structure diagram


HRNet骨干网络结构并行连接多个子网,具有高低特征尺度相互融合的优势.在多尺度融合过程中,高分辨率特征与低分辨率特征通过反复融合,生成可靠的高分辨率车道采样信息表征.该方法在不使用中间热图监督的情况下,可明显提高关键点检测精度,有效降低计算复杂度和参数量,获得更加准确的空间位置信息.

1.2 注意力机制

在车道图像样本中,不同车道实例具有颜色、虚实等复杂的语义特征信息,引入注意力机制(Attention)可解决在网络模型深度过深时造成的梯度消失的问题.此外,受到自然语言处理(Natuarl Language Processing,NLP)领域中全自注意力网络结构(Transformer)成功应用的启发,ViT(Vision Transformer)算法13尝试将标准的Transformer结构引入视觉任务中.具体地,ViT算法将整幅图像拆分成小图像块,并采用线性嵌入序列将这些块作为Transformer的输入,再使用监督训练的方式进行训练.

1.2.1 ViT理论

Transformer结构需要输入的是一个二维矩阵,因此需要将三维图像数据转换成二维输入N,D.假设一个输入图像x

H×W×C,将其分成P×P×C个图像块(Patch)后展平,得到相应数据维度xpN×P2C,即:

N=HW/P2

通过嵌入向量映射层(Embedding)进行线性变换将数据降维成N×D,即:

ẑ =xclass;xp1E;xp2E;;xpNE+Epos,EP2C×DEposN+1×D

其中,ẑ为输出特征层,集合了类别向量追加xclass、图像块嵌入E和位置编码Epos为一体的嵌入向量,向量输入大小为P2C,输出大小为D.

整个Transformer前向过程包括多头注意力机制(Multi⁃head Self⁃Attention,MSA)和多层感知器(Multilayer Perceptro,MLP)两个部分,如图2所示.其中MSA的表达式如式(3)和式(4)所示:

AttentionQ,K,V=softmaxQKTdkV
MultiHeadQ,K,V=Concathead1,head2,,headhWO

其中,Q,K,Vp2×d,分别为query,key和value,headi=AttentionQWiQ,KWiK,VWiV.

图2

图2   Transformer 和MSA的传播过程

Fig.2   Transformer and MSA propagation process


1.2.2 滑窗Transformer

在Swin⁃Transformer14中引入滑窗(Shifted Windows)的方法对MSA进行改进,解决了MSA在图像块切割处造成的上下文语义信息不连续问题.式(5)引入偏置矩阵B̂2M-1×2M-1,变为:

AttentionQ,K,V=softmaxQKTdk+BV

其中,BB̂的取值.

一个Transformer块的传播过程如式(6)所示:

ẑl=MSALNzl-1+zl-1zl=MLPLNẑl+ẑlẑl+1=S-MSALNzl+zlzl+1=MLPLNẑl+1+ẑl+1

其中ẑlzl分别为MSA和MLP的第l输出特征层,S⁃MSA为加入了滑窗结构的MSA.

2 改进的多尺度特征模型

2.1 模型结构

采样图片拍摄的车道线存在不同的尺度大小,因此,模型的编码下采样结构用HRNet网络结构进行改进,如图3所示.

图3

图3   模型的编解码结构过程

Fig.3   Model encoding and decoding structure process


改进的模型HRTran将高低特征融合中进行下采样生成低特征子网的过程由原先CNN结构替换为1.2.2的Transformer结构.

模型的解码部分有两个分支:一个分支直接通过双线性插值进行解码,另一个分支经由图卷积网络(Graph Convolutional Networks,GCN)15结构分支进行解码,该结构能够较好地保留空间语义的上下文信息特征.

最后,模型通过一个1×1卷积网络层(1×1 Conv)分类器输出结果.

2.2 引入Transformer的下采样

将高低特征融合下采样生成低特征子网的过程由原先若干个卷积单元(ConvBlock)替换为上述的Transformer结构.整个过程如图4所示.

图4

图4   用Transformer 替换ConvBlock的结构

Fig.4   Replace the ConvBlock's structure with the Transformer structure


高分辨率图像编码特征图(Feature Map)经过滑窗Transformer块,按1.2所述先将同一批次Batch,B的数据由B,C,H,W转为B,D,N后,还需要经由图像降采样层(Patch Merging)转成B,C*,H2,W2,生成新的低分辨率特征图.

MSA及S⁃MSA部分设置iHead参数为9,随机丢弃率(Dropout)设置为0.2.

2.3 损失函数

针对部分类别数量不平衡的情况,实验训练过程主要采用Softmax Loss16

Lovasz Loss 17损失函数结合的方式对训练的模型权重进行修正,提高模型的鲁棒性.

Softmax Loss损失函数由交叉熵损失函数(Cross Entropy Loss,式(7))与Softmax18激活函数(式(8))组合而成,如式(9)所示:

lossf=-1ni=1nln fiZ
fii=eZik=1CeZk
L=1ni=1n-lneZik=1CeZk

其中,Zi表示第i个样本在其所属类别上的预测概率,C表示共有C个类别.

图像分割方法一般使用交并比(Intersection⁃over⁃Union,IoU,也叫Jaccard Index)来评估效果.Lovasz Loss尝试直接结合交并比作为损失函数进行拟合优化,和经典的Dice Loss19损失函数相比能解决多类别的优化问题.Lovasz Loss对每个像素iIoU评价指标可以用Jaccard Index来表示,即:

Jcy,y˜=y=cy˜=cy=cy˜=c

其中,yi为第i个像素的真实标签,y˜i为第i个像素的预测值,通过y˜i=argmaxc𝒞Zic得到.

式(10)等价于:

Mcy,y˜=y=c,y˜cyc,y˜=c

其中,Mc表示c分类中误差的合集.多分类语义分割任务需要借用Softmax损失函数的思想对上述指标进行优化,式(8)中fic预测的误差向量mic定义为:

mic=1-ficif c=yi fic      otherwise

则整个Lovasz⁃Softmax Loss函数为:

L=1Cc=1CΔ¯Jcmcmc0,1p

其中,Δ¯Jcm是根据插值的离散损失对这些误差进行加权的总和.

3 实验

3.1 数据集

原始数据集样本主要来自Ehualu车道线比赛数据集,如图5所示.含标记样本19000张,未标记样本4000张.样张大小为1920×1080或1280×720.根据具体情况,这些数据集的类别划分包括12类车道类别,涵盖城市街区、高速公路、郊区等不同场景.与Roberts et al20的标注方法不同,这些类别包含车道的具体标识含义,例如,白色虚线和白色实线是不同的类别,无论其在当前视角图片的左侧或是右侧.实验评估将数据集以8∶2的比例分成训练和验证数据.

图5

图5   Ehualu 数据集

Fig.5   Ehualu dataset


3.2 训练参数

输入样本大小为768×512.初始学习率为1×10-3ϵ设置为5×10-6,权重衰减设置为1×10-4.使用带动量的衰减SGD优化器.训练过程共运行320000次迭代,批量大小为4.使用一块2080Ti显卡进行训练,网络框架为Paddle21.

3.3 评估指标

结合式(10)可以得到评价IoU的评估指标,通过计算当前批次样本每个类别的IoU后累加再平均,得到最终的指标结果MIoU(平均交并比,Mean⁃IoU),如式(14)所示:

MIoU=1k+1i=0kpiji=0kpji-pii

其中,pij表示真实值为i、被预测为j的数量,k+1是类别个数(包含背景类).

F1⁃Score作为另一个评估指标,如式(15)所示:

Precisioni=TPiTPi+FPiRecalli=TPiTPi+FNiF1-Score=1k+1i=0k2×Precisioni×RecalliPrecisioni+Recalli

其中,P为正例(Positive),N为负例(Negative),T为预测正确(True),F为预测错误(False).车道数据样本含有多个类别,在多类别任务中,精确度(Precision)和召回率(Recall)分别计算每一个类别i后,再计算最终的F1Score.

此外,准确率(Accuracy)也可以作为模型评估的参考,如式(16)所示:

Accuracy=1k+1i=0kTPi+TNiTPi+FPi+TNi+FNi

3.4 消融实验

3.4.1 评估Transformer的影响

使用Transformer替换原先的卷积下采样进行训练.如图6所示,分别由替换前HRNet(蓝)和替换后HRTran(黄)、HRTran(s)(红)截取训练过程前期35000次迭代训练过程的验证集结果,纵坐标为MIoU.

图6

图6   模型训练的前期过程

Fig.6   Preliminary process of network training


进行两组对比实验,第一组是HRNet与仅对下采样部分由CNN替换为Transformer结构的HRTran.通过对比发现,训练前期HRNet提取的特征评估数据仅从0.05提升至0.12,替换后的HRTran同期从0.13提升至0.28,后者的提升速度接近前者的两倍.

第二组对比为均替换了Transformer结构的HRTran和HRTran(s),两者在每个Stage的重复残差块数量不同,前者Stage为四个重复块,后者为两个.可以看出,在训练过程中两者提升的趋势速率基本相当.

由此可见,引入Transformer结构的模型提取特征的上下文空间信息更快.第二组实验的HRTran(s)模型,训练结束的结果中MIoU比HRTran少10%,但整体权重大大减少.

3.4.2 损失函数的影响 分别仅使用Softmax Loss损失函数(Softmax⁃CELoss)和交叉熵损失函数(CELoss)结合Softmax⁃Lovasz Loss进行模型训练验证,结果如表1所示.C表示仅使用Softmax Loss,C+L表示CELoss结合Softmax

Lovasz Loss的结果.

表1可知,结合后的损失函数有助于模型权重参数学习更多有效的特征,由于准确率相差不大,MIoUF1系数更能评估模型结果的差异.仅使用Softmax⁃CELoss函数的对比组在训练后期,容易出现梯度消失的情况;仅使用Softmax⁃Lovasz Loss在训练中对模型权重敏感性要求更高,一开始不容易收敛,且损失函数波动较大;利用两者结合能够更好地达到最佳训练效果,二者的训练权重比值为1∶0.185.

表1   使用不同的损失函数对实验结果的影响

Table 1  Experimental results by using different loss founctions

MIoUAccuracyF1⁃score
HRNet (C)37.83%97.98%53.62%
HRTran (C)39.64%98.52%54.37%
HRNet (C+L)44.01%98.98%57.09%
HRTran (C+L)49.36%99.03%63.02%

新窗口打开| 下载CSV


3.4.3 模型结果对比

分别对比UNet++[22]、Deeplabv3系列23、HRNet以及改进后的模型HRTran,实验结果如表2所示.

表2   不同模型的评估结果

Table 2  Evaluation results of different models

MIoUAccracyF1⁃score
UNet++34.82%96.72%52.67%
Deeplabv343.35%98.96%57.82%
HRNet44.01%98.98%57.09%
HRTran49.36%99.03%63.02%

新窗口打开| 下载CSV


使用以上三种模型进行对比实验,Deeplab系列和HRNet网络在MIoUF1⁃score上相差不大,改进后的HRTran的MIoU为49.36%,F1⁃score为63.02%.

选取Deeplab,HRNet以及改进后的模型分别测试样张,结果如图7所示,图7a至图7g分别展示了不同场景下的车道检测结果,从左到右分别是原图、Deeplab模型的检测可视化结果、HRNet模型的检测可视化结果以及HRTran模型的可视化结果及其叠加效果图.

图7

图7   Deeplab,HRNet和改进后的HRTran对不同场景下的车道检测结果

Fig.7   Detection results of Deeplab,HRNet and improved HRTran lane in different scenarios


图7a展示了强光环境下三个模型输出的对比效果.HRNet在检测中存在明显的不连续问题,由图中白色圆形标记可以看出,在这一条车道中存在被判为其他类别的杂点,但杂点与主要类别混杂在一起,显然不符合实际情况.这种情况下,尽管在评估指标数据上整体指标与改进后的结果相差不大,但实际上还是存在误差,这也体现出改进后的模型在空间语义上下文的特征提取更为准确.而Deeplab在消失点处存在散点,对比改进后的HRTran至消失点后不再出现杂点,也体现出对实际语义上下文获取的特征更为丰富准确.

图7b中三者的差异体现在对图像中尺度分辨率更小的车道提取的能力上.图像由采样过程带来的局限在图像特征消失点处容易造成类别混淆,这在车道类别识别中是客观存在的问题.例如,在正常行驶的车道中由实线断开为虚线的情况表明存在可掉头处的含义,这在图像中应该表现为两个不同类别的三条实例接连在一起,表示可掉头的交通含义.这种情况在图像近景处能够很好地识别,但由于图像获取时造成的模糊,出现人工复核也无法正确判别的情况,这在视觉消失处的表现更明显24.此外,图像也存在远景中变形的问题.本方法的目的是在尽可能保证良好视觉区域部分识别正确的情况下,尽可能通过多尺度分辨率特征提高识别小目标特征的准确性.通过图7b中三者对比,改进后的模型在消失处的处理结果比Deeplab更合理,改进后的HRTran能够利用空间语义信息将Deeplab识别成散点的区域识别成一个整体实例.

图7d和图7e展示了三种模型对有阴影遮挡情况下的可视化结果,图7d和图7e的场景分别存在建筑造成的阴影和树影的干扰.图7d中阴影为横向阴影,形状规则但影响当前视角内所有的车道线.通过实验比较,图像阴影交界的明暗差异容易对模型预测造成干扰,Deeplab模型在该情况下对视角边缘的车道线特征捕捉不充分,左边车道识别不全;HRNet模型在阴影处丢失空间上下文语义特征,识别时一条车道在阴影处中断,误识别为两条;改进后的HRTran利用Transformer结构特征充分提取全局的空间语义信息,弥补了这些不足.图7e的场景阴影为纵向阴影,其影响范围不涉及所有车道,但对视角边缘的车道造成的干扰较大.此外,由于视角畸变,靠近边缘的车道线会发生扭曲,对检测的准确程度也造成一定的影响.由对比结果可见,改进后的HRTran和HRNet相比,其优势是能够捕捉靠近边缘的车道线;和Deeplab相比,两者都捕捉到了大致的特征,但Deeplab检测类别存在错误,此处应为白虚线类别.改进后的HRTran对主要的车道特征提取的准确度较好,对边缘出现扭曲的车道特征提取有一定优势,但仍存在可优化的空间.

图7f和图7g对比了三种模型在弯道场景中的可视化情况.弯道场景中同样存在上述边缘或远景的视角畸变产生的扭曲问题.图7f表明三者对主要弯道的处理都比较好,但在边缘车道的特征处理上,HRTran在边缘车道特征提取时体现出了Transformer结构的优势,能够更好地抓取全局上下文语义信息,比对照组的识别效果更好.图7g对比了弯道场景的远景处理情况.Deeplab在弯道的远景提取上仍存在断点的情况,HRTran改进了特征提取结果.和HRNet相比,HRTran克服了HRNet提取弯道远景处语义信息的局限,同一弯道线的实例更连贯,符合实际场景,体现了改进后的优势.

改进后的HRTran结合Transformer能够克服CNN结构的一些局限性,利用Transformer结构提取更丰富的语义信息,可适应不同的车道场景,具有更好的鲁棒性.

3.4.4 数据集训练结果对比

将HRTran模型网络用来测试Tusimple数据集,实验结果如图8所示,为输出结果的标签与原图叠加的效果图.

图8

图8   改进后的HRTran模型对Tusimple数据集的测试结果

Fig.8   Test result of the modified HRTran model on the Tusimple dataset


由图可见,改进后的模型对Tusmple数据集也能很好地检测并识别车道,证明改进的模型在车道场景中具有较好的鲁棒性.

4 结论

在实际场景中,车道线本身含有丰富的语义信息,但大多数识别方法只关注其位置信息.设计一种引入Transformer的多尺度分辨率特征模型的网络结构,能够更好地提取车道图像场景中的语义空间特征,解决日益复杂车道场景中的车道线检测不连续的问题.此外,该模型在存在阴影、遮挡的场景中也有更好的适应性,在提取车道的弯道特征时也有不错的表现.整体而言,和现有模型相比,改进后的HRTran具有更好的鲁棒性.但在目前的工作中,受限于端侧应用设备性能、存储等,改进后的模型在精度和模型权重参数量上还存在优化空间,后续将探索模型的轻量化,使之更适应落地应用.

参考文献

Yurtsever ELambert JCarballo Aet al.

A survey of autonomous driving:Common practices and emerging technologies

IEEE Access,2020(8):58443-58469.

[本文引用: 1]

Xing YLv CChen Let al.

Advances in vision⁃based lane detection:Algorithms,integration,assessment,and perspectives on ACP⁃based parallel vision

IEEE/CAA Journal of Automatica Sinica,20185(3):645-661.

[本文引用: 1]

万琴朱晓林肖岳平.

面向复杂城市交通场景的一种实时车道线检测方法

计算机测量与控制,201927(9):61-65122.

[本文引用: 1]

Wan QZhu X LXiao Y Pet al.

A real⁃time lane detection method for complex urban traffic scenes

Computer Measurement & Control,201927(9):61-65122.

[本文引用: 1]

Liang DGuo Y CZhang S Ket al.

Lane detection:A survey with new results

Journal of Computer Science and Technology,202035(3):493-505.

[本文引用: 1]

Qin Z QWang H YLi X.

Ultra fast structure⁃aware deep lane detection

The 16th European Conference on Computer Vision. Glasgow,United KingdomSpringer2020276-291.

[本文引用: 1]

Tabelini LBerriel RPaixão T Met al.

Keep your eyes on the lane:Real⁃time attention⁃guided lane detection

2020,arXiv:.

[本文引用: 1]

Cai Y FLuan T YGao H Bet al.

YOLOv4⁃5D:An effective and efficient object detector for autonomous driving

IEEE Transactions on Instrumentation and Measurement,2021(70):4503613.

[本文引用: 1]

胡太杨明.

结合目标检测的小目标语义分割算法

南京大学学报(自然科学),201955(1):73-84.

[本文引用: 1]

Hu TYang M.

A small object semantic segmentation algorithm combined with object detection

Journal of Nanjing University (Natural Science),201955(1):73-84.

[本文引用: 1]

Xu HWang S JCai X Yet al.

CurveLane⁃NAS:Unifying lane⁃sensitive architecture search and adaptive point blending

The 16th European Conference on Computer Vision. Glasgow,United KingdomSpringer2020689-704.

[本文引用: 1]

Pan X GShi J PLuo Pet al.

Spatial as deep:Spatial CNN for traffic scene understanding

Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans,LA,USAAAAI20187276-7283.

[本文引用: 1]

Neven DBrabandere B DGeorgoulis Set al.

Towards end⁃to⁃end lane detection:An instance segmentation approach

2018 IEEE Intelligent Vehicles Symposium (IV). Changshu,ChinaIEEE2018286-291.

[本文引用: 1]

Sun KXiao BLiu Det al.

Deep high⁃resolution representation learning for human pose estimation

The 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE20195686-5696.

[本文引用: 2]

Vaswani AShazeer NParmar Net al.

Attention is all you need

The 31st International Conference on Neural Information Processing Systems. Red Hook,NY,USACurran Associates Inc.20176000-6010.

[本文引用: 1]

Liu ZLin YTCao Yet al.

Swin transformer:Hierarchical vision transformer using shifted windows

2021,arXiv:.

[本文引用: 1]

Kipf T NWelling M.

Semi⁃supervised classification with graph convolutional networks

.2016,arXiv:1609. 02907

[本文引用: 1]

Fathullah YZhang CWoodland P C.

Improved large⁃margin softmax loss for speaker diarisation

2020 IEEE International Conference on Acoustics,Speech and Signal Processing. Barcelona,SpainIEEE20207104-7108.

[本文引用: 1]

Berman MTriki A RBlaschko M B.

The Lovasz⁃softmax loss:A tractable surrogate for the optimization of the intersection⁃over⁃union measure in neural networks

The 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE20184413-4421.

[本文引用: 1]

陈俊芬赵佳成韩洁.

基于深度特征表示的Softmax聚类算法

南京大学学报(自然科学版),202056(4):533-540.

[本文引用: 1]

Chen J FZhao J CHan Jet al.

Softmax clustering algorithm based on deep features representation

Journal of Nanjing University (Natural Science),202056(4):533-540.

[本文引用: 1]

Milletari FNavab NAhmadi S A.

V⁃Net:Fully convolutional neural networks for volumetric medical image segmentation

The 4th International Conference on 3D Vision. Stanford,CA,USAIEEE2016565-571.

[本文引用: 1]

Roberts BKaltwang SSamangooei Set al.

A dataset for lane instance segmentation in urban environments

2018,arXiv:.

[本文引用: 1]

Liu YChu LChen Get al.

PaddleSeg:A high⁃efficient development toolkit for image segmentation

2021,arXiv:.

[本文引用: 1]

Zhou Z WSiddiquee M M RTajbakhsh Net al.

UNet++:Redesigning skip connections to exploit multiscale features in image segmentation

IEEE Transactions on Medical Imaging,202039(6):1856-1867.

Chen L CZhu Y KPapandreou Get al.

Encoder⁃decoder with atrous separable convolution for semantic image segmentation

The 15th European Conference on Computer Vision. Munich,GermanySpringer2018833-851.

[本文引用: 1]

Liu Y BZeng MMeng Q H.

Heatmap⁃based vanishing point boosts lane detection

2020,arXiv:.

[本文引用: 1]

/