近年来,高级辅助驾驶系统(Advanced Driver Assistance Systems,ADAS)相关技术[1 ] 成为人工智能领域的研究热点之一,其应用方向衍生出车道保持、自动泊车定位等众多应用场景,同时也涉及安全性、实时性或驾驶行为等相关研究.自动驾驶系统划分为定位、感知、规划和人机界面等各类子问题.车道线作为感知部分的必要数据来源,为车辆正常行驶提供重要交通信息参考.随着深度学习兴起,基于神经网络模型提取车道特征、识别车道线成为新的研究方向[2 ] .
车道线通常采用单目摄像头获取,其主要包括形状、颜色、纹理等特征.传统图像方法如霍夫变换在车道线检测的实时性和检测精度上很难达到平衡[3 ] .其原理主要是通过边缘滤波检测结合霍夫变换,估计车道标记位置,进行坐标变换表示车道线方向,最后拟合抛物线来检测.但这需要人工调试滤波算子,远远无法满足自动驾驶场景中对车辆的安全性和实时性的要求.遮挡、阴影等复杂场景情况也会对这些算法产生严重干扰,引发鲁棒性问题.
基于神经网络算法研究车道线模型[4 ] 主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST[5 ] 网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT[6 ] 将锚框(Anchor)[7 ] 和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题.
语义分割[8 ] 的方法主要利用图像中更丰富的上下文等语义信息,将每个车道变为一个实例,通过像素级的分类进行处理.如CurveLane[9 ] 网络模型基于该方法利用神经网络架构搜索(Neural Architecture Search,NAS)进行更有效的计算分配,自动融合及捕获远程连贯和准确的曲线信息,解决弯道检测的局限.
尽管卷积神经网络(Convolutional Neural Network,CNN)能提取语义特征,但现有的基于CNN的模型无法充分探索图像行和列的空间能力关系[10 ] .这些关系对先验学习车道线的形状对象影响很大,尤其是外观的连续性,往往表现为一条车道线被识别为多条断开的车道线,或是识别缺失,在遮挡或者阴影条件下尤为明显.此外,车道线除了提供位置信息外,自身的颜色、形状包含更复杂的交通实际语义信息,一些方法[11 ] 只关注实时性,丢失了这些丰富的语义信息.因此,本文在上述研究的基础上,提出引入全自注意力网络结构(Transformer)的模型方法HRTran.该方法基于多尺度分辨率语义分割HRNet网络[12 ] 编码,将编码下采样替换成线性特性的Transformer结构,提取更丰富的上下文空间信息,利用多头注意力机制(Multi⁃head Self⁃Attention,MSA)解决嵌入向量层映射(Embedding)切分造成的边界语义信息不连续问题,可以提高检测的准确率.针对语义分割特点使用交并比损失函数结合Softmax交叉熵损失函数进行拟合训练,其中输出标签的类别表示实际交通含义信息,可在检测车道的同时输出其交通含义标签.该模型对遮挡、阴影、弯道等场景也有很好的检测效果,在不损失精度的情况下,具有更好的鲁棒性.
1 相关理论
1.1 多尺度特征并行网络
Sun et al[12 ] 提出的HRNet是典型的多尺度分辨率特征的并行模型,由,用于人体姿态估计任务,其模型结构如图1 所示.整个网络的骨干部分(Backbone)分成四组重复残差网络结构块组(Stage),每个残差网络结构块组由若干个残差结构块构成,每个残差块均由残差网络层连接.相邻残差网络结构块组经由一个过渡层(Transition Layer)结构进行下采样产生低分辨率的特征子网,不同尺度特征层通过融合层(Fuse Layer)结构进行信息交互,融合特征.整个编码过程中产生多个并行采样子网.这些并行子网引入交换单元,可重复接收来自其他并行子网的信息.
图 1
图 1
HRNet 网络结构示意图
Fig.1
HRNet structure diagram
HRNet骨干网络结构并行连接多个子网,具有高低特征尺度相互融合的优势.在多尺度融合过程中,高分辨率特征与低分辨率特征通过反复融合,生成可靠的高分辨率车道采样信息表征.该方法在不使用中间热图监督的情况下,可明显提高关键点检测精度,有效降低计算复杂度和参数量,获得更加准确的空间位置信息.
1.2 注意力机制
在车道图像样本中,不同车道实例具有颜色、虚实等复杂的语义特征信息,引入注意力机制(Attention)可解决在网络模型深度过深时造成的梯度消失的问题.此外,受到自然语言处理(Natuarl Language Processing,NLP)领域中全自注意力网络结构(Transformer)成功应用的启发,ViT(Vision Transformer)算法[13 ] 尝试将标准的Transformer结构引入视觉任务中.具体地,ViT算法将整幅图像拆分成小图像块,并采用线性嵌入序列将这些块作为Transformer的输入,再使用监督训练的方式进行训练.
1.2.1 ViT理论
Transformer结构需要输入的是一个二维矩阵,因此需要将三维图像数据转换成二维输入N , D . 假设一个输入图像x ∈
ℝ H × W × C ,将其分成P × P × C 个图像块(Patch)后展平,得到相应数据维度x p ∈ ℝ N × P 2 ⋅ C ,即:
N = H W / P 2 (1)
通过嵌入向量映射层(Embedding)进行线性变换将数据降维成N × D ,即:
z ̂ = x c l a s s ; x p 1 E ; x p 2 E ; ⋯ ; x p N E + E p o s , E ∈ ℝ P 2 ⋅ C × D E p o s ∈ ℝ N + 1 × D (2)
其中,z ̂ 为输出特征层,集合了类别向量追加x c l a s s 、图像块嵌入E 和位置编码E p o s 为一体的嵌入向量,向量输入大小为P 2 ⋅ C ,输出大小为D .
整个Transformer前向过程包括多头注意力机制(Multi⁃head Self⁃Attention,MSA)和多层感知器(Multilayer Perceptro,MLP)两个部分,如图2 所示.其中MSA的表达式如式(3)和式(4)所示:
A t t e n t i o n Q , K , V = s o f t m a x Q K T d k V (3)
M u l t i H e a d Q , K , V = C o n c a t h e a d 1 , h e a d 2 , … , h e a d h W O (4)
其中,Q , K , V ∈ ℝ p 2 × d ,分别为query,key和value,h e a d i = A t t e n t i o n Q W i Q , K W i K , V W i V .
图2
图2
Transformer 和MSA的传播过程
Fig.2
Transformer and MSA propagation process
1.2.2 滑窗Transformer
在Swin⁃Transformer[14 ] 中引入滑窗(Shifted Windows)的方法对MSA进行改进,解决了MSA在图像块切割处造成的上下文语义信息不连续问题.式(5)引入偏置矩阵B ̂ ∈ ℝ 2 M - 1 × 2 M - 1 ,变为:
A t t e n t i o n Q , K , V = s o f t m a x Q K T d k + B V (5)
一个Transformer块的传播过程如式(6)所示:
z ̂ l = M S A L N z l - 1 + z l - 1 z l = M L P L N z ̂ l + z ̂ l z ̂ l + 1 = S - M S A L N z l + z l z l + 1 = M L P L N z ̂ l + 1 + z ̂ l + 1 (6)
其中z ̂ l 和z l 分别为MSA和MLP的第l 输出特征层,S⁃MSA为加入了滑窗结构的MSA.
2 改进的多尺度特征模型
2.1 模型结构
采样图片拍摄的车道线存在不同的尺度大小,因此,模型的编码下采样结构用HRNet网络结构进行改进,如图3 所示.
图3
图3
模型的编解码结构过程
Fig.3
Model encoding and decoding structure process
改进的模型HRTran将高低特征融合中进行下采样生成低特征子网的过程由原先CNN结构替换为1.2.2的Transformer结构.
模型的解码部分有两个分支:一个分支直接通过双线性插值进行解码,另一个分支经由图卷积网络(Graph Convolutional Networks,GCN)[15 ] 结构分支进行解码,该结构能够较好地保留空间语义的上下文信息特征.
最后,模型通过一个1 × 1 卷积网络层(1 × 1 Conv)分类器输出结果.
2.2 引入Transformer的下采样
将高低特征融合下采样生成低特征子网的过程由原先若干个卷积单元(ConvBlock)替换为上述的Transformer结构.整个过程如图4 所示.
图4
图4
用Transformer 替换ConvBlock的结构
Fig.4
Replace the ConvBlock's structure with the Transformer structure
高分辨率图像编码特征图(Feature Map)经过滑窗Transformer块,按1.2所述先将同一批次B a t c h , B 的数据由B , C , H , W 转为B , D , N 后,还需要经由图像降采样层(Patch Merging)转成B , C * , H 2 , W 2 ,生成新的低分辨率特征图.
MSA及S⁃MSA部分设置i H e a d 参数为9,随机丢弃率(Dropout)设置为0.2.
2.3 损失函数
针对部分类别数量不平衡的情况,实验训练过程主要采用Softmax Loss[16 ] 和
Lovasz Loss [17 ] 损失函数结合的方式对训练的模型权重进行修正,提高模型的鲁棒性.
Softmax Loss损失函数由交叉熵损失函数(Cross Entropy Loss,式(7))与Softmax[18 ] 激活函数(式(8))组合而成,如式(9)所示:
l o s s f = - 1 n ∑ i = 1 n l n f i Z (7)
f i i = e Z i ∑ k = 1 C e Z k (8)
L = 1 n ∑ i = 1 n - l n e Z i ∑ k = 1 C e Z k (9)
其中,Z i 表示第i 个样本在其所属类别上的预测概率,C 表示共有C 个类别.
图像分割方法一般使用交并比(Intersection⁃over⁃Union,IoU, 也叫Jaccard Index)来评估效果.Lovasz Loss尝试直接结合交并比作为损失函数进行拟合优化,和经典的Dice Loss[19 ] 损失函数相比能解决多类别的优化问题.Lovasz Loss对每个像素i 的IoU 评价指标可以用Jaccard Index来表示,即:
J c y , y ˜ = y = c ⋂ y ˜ = c y = c ⋃ y ˜ = c (10)
其中,y i 为第i 个像素的真实标签,y ˜ i 为第i 个像素的预测值,通过y ˜ i = a r g m a x c ∈ 𝒞 Z i c 得到.
M c y , y ˜ = y = c , y ˜ ≠ c ⋃ y ≠ c , y ˜ = c (11)
其中,M c 表示c 分类中误差的合集.多分类语义分割任务需要借用Softmax损失函数的思想对上述指标进行优化,式(8)中f i c 预测的误差向量m i c 定义为:
m i c = 1 - f i c i f c = y i f i c o t h e r w i s e (12)
则整个Lovasz⁃Softmax Loss函数为:
L = 1 C ∑ c = 1 C Δ ¯ J c m c m c ∈ 0,1 p (13)
其中,Δ ¯ J c m 是根据插值的离散损失对这些误差进行加权的总和.
3 实验
3.1 数据集
原始数据集样本主要来自Ehualu车道线比赛数据集,如图5 所示.含标记样本19000张,未标记样本4000张.样张大小为1920×1080或1280×720.根据具体情况,这些数据集的类别划分包括12类车道类别,涵盖城市街区、高速公路、郊区等不同场景.与Roberts et al[20 ] 的标注方法不同,这些类别包含车道的具体标识含义,例如,白色虚线和白色实线是不同的类别,无论其在当前视角图片的左侧或是右侧.实验评估将数据集以8∶2的比例分成训练和验证数据.
图5
图5
Ehualu 数据集
Fig.5
Ehualu dataset
3.2 训练参数
输入样本大小为768×512.初始学习率为1 × 10 - 3 ,ϵ 设置为5 × 10 - 6 ,权重衰减设置为1 × 10 - 4 . 使用带动量的衰减SGD优化器.训练过程共运行320000次迭代,批量大小为4.使用一块2080Ti显卡进行训练,网络框架为Paddle[21 ] .
3.3 评估指标
结合式(10)可以得到评价IoU的评估指标,通过计算当前批次样本每个类别的IoU后累加再平均,得到最终的指标结果MIoU (平均交并比,Mean⁃IoU ),如式(14)所示:
M I o U = 1 k + 1 ∑ i = 0 k p i j ∑ i = 0 k p j i - p i i (14)
其中,p i j 表示真实值为i、 被预测为j 的数量,k+ 1是类别个数(包含背景类).
F 1⁃Score作为另一个评估指标,如式(15)所示:
P r e c i s i o n i = T P i T P i + F P i R e c a l l i = T P i T P i + F N i F 1 - S c o r e = 1 k + 1 ∑ i = 0 k 2 × P r e c i s i o n i × R e c a l l i P r e c i s i o n i + R e c a l l i (15)
其中,P 为正例(Positive),N 为负例(Negative),T 为预测正确(True),F 为预测错误(False).车道数据样本含有多个类别,在多类别任务中,精确度(Precision )和召回率(Recall )分别计算每一个类别i 后,再计算最终的F 1⁃ Score.
此外,准确率(Accuracy )也可以作为模型评估的参考,如式(16)所示:
A c c u r a c y = 1 k + 1 ∑ i = 0 k T P i + T N i T P i + F P i + T N i + F N i (16)
3.4 消融实验
3.4.1 评估Transformer的影响
使用Transformer替换原先的卷积下采样进行训练.如图6 所示,分别由替换前HRNet(蓝)和替换后HRTran(黄)、HRTran(s)(红)截取训练过程前期35000次迭代训练过程的验证集结果,纵坐标为MIoU .
图6
图6
模型训练的前期过程
Fig.6
Preliminary process of network training
进行两组对比实验,第一组是HRNet与仅对下采样部分由CNN替换为Transformer结构的HRTran.通过对比发现,训练前期HRNet提取的特征评估数据仅从0.05提升至0.12,替换后的HRTran同期从0.13提升至0.28,后者的提升速度接近前者的两倍.
第二组对比为均替换了Transformer结构的HRTran和HRTran(s),两者在每个Stage的重复残差块数量不同,前者Stage为四个重复块,后者为两个.可以看出,在训练过程中两者提升的趋势速率基本相当.
由此可见,引入Transformer结构的模型提取特征的上下文空间信息更快.第二组实验的HRTran(s)模型,训练结束的结果中MIoU 比HRTran少10%,但整体权重大大减少.
3.4.2 损失函数的影响 分别仅使用Softmax Loss损失函数(Softmax⁃CELoss)和交叉熵损失函数(CELoss)结合Softmax⁃Lovasz Loss进行模型训练验证,结果如表1 所示.C表示仅使用Softmax Loss,C+L表示CELoss结合Softmax
由表1 可知,结合后的损失函数有助于模型权重参数学习更多有效的特征,由于准确率相差不大,MIoU 和F 1系数更能评估模型结果的差异.仅使用Softmax⁃CELoss函数的对比组在训练后期,容易出现梯度消失的情况;仅使用Softmax⁃Lovasz Loss在训练中对模型权重敏感性要求更高,一开始不容易收敛,且损失函数波动较大;利用两者结合能够更好地达到最佳训练效果,二者的训练权重比值为1∶0.185.
3.4.3 模型结果对比
分别对比UNet++[22] 、Deeplabv3系列[23 ] 、HRNet以及改进后的模型HRTran,实验结果如表2 所示.
使用以上三种模型进行对比实验,Deeplab系列和HRNet网络在MIoU 和F 1⁃score上相差不大,改进后的HRTran的MIoU 为49.36%,F 1⁃score为63.02%.
选取Deeplab,HRNet以及改进后的模型分别测试样张,结果如图7 所示,图7 a至图7 g分别展示了不同场景下的车道检测结果,从左到右分别是原图、Deeplab模型的检测可视化结果、HRNet模型的检测可视化结果以及HRTran模型的可视化结果及其叠加效果图.
图7
图7
Deeplab,HRNet和改进后的HRTran对不同场景下的车道检测结果
Fig.7
Detection results of Deeplab,HRNet and improved HRTran lane in different scenarios
图7 a展示了强光环境下三个模型输出的对比效果.HRNet在检测中存在明显的不连续问题,由图中白色圆形标记可以看出,在这一条车道中存在被判为其他类别的杂点,但杂点与主要类别混杂在一起,显然不符合实际情况.这种情况下,尽管在评估指标数据上整体指标与改进后的结果相差不大,但实际上还是存在误差,这也体现出改进后的模型在空间语义上下文的特征提取更为准确.而Deeplab在消失点处存在散点,对比改进后的HRTran至消失点后不再出现杂点,也体现出对实际语义上下文获取的特征更为丰富准确.
图7 b中三者的差异体现在对图像中尺度分辨率更小的车道提取的能力上.图像由采样过程带来的局限在图像特征消失点处容易造成类别混淆,这在车道类别识别中是客观存在的问题.例如,在正常行驶的车道中由实线断开为虚线的情况表明存在可掉头处的含义,这在图像中应该表现为两个不同类别的三条实例接连在一起,表示可掉头的交通含义.这种情况在图像近景处能够很好地识别,但由于图像获取时造成的模糊,出现人工复核也无法正确判别的情况,这在视觉消失处的表现更明显[24 ] .此外,图像也存在远景中变形的问题.本方法的目的是在尽可能保证良好视觉区域部分识别正确的情况下,尽可能通过多尺度分辨率特征提高识别小目标特征的准确性.通过图7 b中三者对比,改进后的模型在消失处的处理结果比Deeplab更合理,改进后的HRTran能够利用空间语义信息将Deeplab识别成散点的区域识别成一个整体实例.
图7 d和图7 e展示了三种模型对有阴影遮挡情况下的可视化结果,图7 d和图7 e的场景分别存在建筑造成的阴影和树影的干扰.图7 d中阴影为横向阴影,形状规则但影响当前视角内所有的车道线.通过实验比较,图像阴影交界的明暗差异容易对模型预测造成干扰,Deeplab模型在该情况下对视角边缘的车道线特征捕捉不充分,左边车道识别不全;HRNet模型在阴影处丢失空间上下文语义特征,识别时一条车道在阴影处中断,误识别为两条;改进后的HRTran利用Transformer结构特征充分提取全局的空间语义信息,弥补了这些不足.图7 e的场景阴影为纵向阴影,其影响范围不涉及所有车道,但对视角边缘的车道造成的干扰较大.此外,由于视角畸变,靠近边缘的车道线会发生扭曲,对检测的准确程度也造成一定的影响.由对比结果可见,改进后的HRTran和HRNet相比,其优势是能够捕捉靠近边缘的车道线;和Deeplab相比,两者都捕捉到了大致的特征,但Deeplab检测类别存在错误,此处应为白虚线类别.改进后的HRTran对主要的车道特征提取的准确度较好,对边缘出现扭曲的车道特征提取有一定优势,但仍存在可优化的空间.
图7 f和图7 g对比了三种模型在弯道场景中的可视化情况.弯道场景中同样存在上述边缘或远景的视角畸变产生的扭曲问题.图7 f表明三者对主要弯道的处理都比较好,但在边缘车道的特征处理上,HRTran在边缘车道特征提取时体现出了Transformer结构的优势,能够更好地抓取全局上下文语义信息,比对照组的识别效果更好.图7 g对比了弯道场景的远景处理情况.Deeplab在弯道的远景提取上仍存在断点的情况,HRTran改进了特征提取结果.和HRNet相比,HRTran克服了HRNet提取弯道远景处语义信息的局限,同一弯道线的实例更连贯,符合实际场景,体现了改进后的优势.
改进后的HRTran结合Transformer能够克服CNN结构的一些局限性,利用Transformer结构提取更丰富的语义信息,可适应不同的车道场景,具有更好的鲁棒性.
3.4.4 数据集训练结果对比
将HRTran模型网络用来测试Tusimple数据集,实验结果如图8 所示,为输出结果的标签与原图叠加的效果图.
图8
图8
改进后的HRTran模型对Tusimple数据集的测试结果
Fig.8
Test result of the modified HRTran model on the Tusimple dataset
由图可见,改进后的模型对Tusmple数据集也能很好地检测并识别车道,证明改进的模型在车道场景中具有较好的鲁棒性.
4 结论
在实际场景中,车道线本身含有丰富的语义信息,但大多数识别方法只关注其位置信息.设计一种引入Transformer的多尺度分辨率特征模型的网络结构,能够更好地提取车道图像场景中的语义空间特征,解决日益复杂车道场景中的车道线检测不连续的问题.此外,该模型在存在阴影、遮挡的场景中也有更好的适应性,在提取车道的弯道特征时也有不错的表现.整体而言,和现有模型相比,改进后的HRTran具有更好的鲁棒性.但在目前的工作中,受限于端侧应用设备性能、存储等,改进后的模型在精度和模型权重参数量上还存在优化空间,后续将探索模型的轻量化,使之更适应落地应用.
参考文献
View Option
[1]
Yurtsever E , Lambert J , Carballo A ,et al . A survey of autonomous driving:Common practices and emerging technologies
IEEE Access ,2020 (8 ):58443 -58469 .
[本文引用: 1]
[2]
Xing Y , Lv C , Chen L ,et al . Advances in vision⁃based lane detection:Algorithms,integration,assessment,and perspectives on ACP⁃based parallel vision
IEEE/CAA Journal of Automatica Sinica ,2018 ,5 (3 ):645 -661 .
[本文引用: 1]
[3]
万琴 ,朱晓林 ,肖岳平 ,等 . 面向复杂城市交通场景的一种实时车道线检测方法
计算机测量与控制 ,2019 ,27 (9 ):61 -65 ,122 .
[本文引用: 1]
Wan Q , Zhu X L , Xiao Y P ,et al . A real⁃time lane detection method for complex urban traffic scenes
Computer Measurement & Control ,2019 ,27 (9 ):61 -65 ,122 .
[本文引用: 1]
[4]
Liang D , Guo Y C , Zhang S K ,et al . Lane detection:A survey with new results
Journal of Computer Science and Technology ,2020 ,35 (3 ):493 -505 .
[本文引用: 1]
[5]
Qin Z Q , Wang H Y , Li X . Ultra fast structure⁃aware deep lane detection
∥The 16th European Conference on Computer Vision . Glasgow,United Kingdom :Springer ,2020 :276 -291 .
[本文引用: 1]
[6]
Tabelini L , Berriel R , Paixão T M ,et al . Keep your eyes on the lane:Real⁃time attention⁃guided lane detection
2020 ,arXiv:.
[本文引用: 1]
[7]
Cai Y F , Luan T Y , Gao H B ,et al . YOLOv4⁃5D:An effective and efficient object detector for autonomous driving
IEEE Transactions on Instrumentation and Measurement ,2021 (70 ):4503613 .
[本文引用: 1]
[8]
胡太 ,杨明 . 结合目标检测的小目标语义分割算法
南京大学学报(自然科学) ,2019 ,55 (1 ):73 -84 .
[本文引用: 1]
Hu T , Yang M . A small object semantic segmentation algorithm combined with object detection
Journal of Nanjing University (Natural Science) ,2019 ,55 (1 ):73 -84 .
[本文引用: 1]
[9]
Xu H , Wang S J , Cai X Y ,et al . CurveLane⁃NAS:Unifying lane⁃sensitive architecture search and adaptive point blending
∥The 16th European Conference on Computer Vision . Glasgow,United Kingdom :Springer ,2020 :689 -704 .
[本文引用: 1]
[10]
Pan X G , Shi J P , Luo P ,et al . Spatial as deep:Spatial CNN for traffic scene understanding
∥Proceedings of the 32nd AAAI Conference on Artificial Intelligence . New Orleans,LA,USA :AAAI ,2018 :7276 -7283 .
[本文引用: 1]
[11]
Neven D , Brabandere B D , Georgoulis S ,et al . Towards end⁃to⁃end lane detection:An instance segmentation approach
∥2018 IEEE Intelligent Vehicles Symposium (IV) . Changshu,China :IEEE ,2018 :286 -291 .
[本文引用: 1]
[12]
Sun K , Xiao B , Liu D ,et al . Deep high⁃resolution representation learning for human pose estimation
∥The 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach,CA,USA :IEEE ,2019 :5686 -5696 .
[本文引用: 2]
[13]
Vaswani A , Shazeer N , Parmar N ,et al . Attention is all you need
∥The 31st International Conference on Neural Information Processing Systems . Red Hook,NY,USA :Curran Associates Inc. ,2017 :6000 -6010 .
[本文引用: 1]
[14]
Liu Z , Lin YT , Cao Y ,et al . Swin transformer:Hierarchical vision transformer using shifted windows
2021 ,arXiv:.
[本文引用: 1]
[15]
Kipf T N , Welling M . Semi⁃supervised classification with graph convolutional networks
.2016 ,arXiv:1609. 02907
[本文引用: 1]
[16]
Fathullah Y , Zhang C , Woodland P C . Improved large⁃margin softmax loss for speaker diarisation
∥2020 IEEE International Conference on Acoustics,Speech and Signal Processing . Barcelona,Spain :IEEE ,2020 :7104 -7108 .
[本文引用: 1]
[17]
Berman M , Triki A R , Blaschko M B . The Lovasz⁃softmax loss:A tractable surrogate for the optimization of the intersection⁃over⁃union measure in neural networks
∥The 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City,UT,USA :IEEE ,2018 :4413 -4421 .
[本文引用: 1]
[18]
陈俊芬 ,赵佳成 ,韩洁 ,等 . 基于深度特征表示的Softmax聚类算法
南京大学学报(自然科学版) ,2020 ,56 (4 ):533 -540 .
[本文引用: 1]
Chen J F , Zhao J C , Han J ,et al . Softmax clustering algorithm based on deep features representation
Journal of Nanjing University (Natural Science) ,2020 ,56 (4 ):533 -540 .
[本文引用: 1]
[19]
Milletari F , Navab N , Ahmadi S A . V⁃Net:Fully convolutional neural networks for volumetric medical image segmentation
∥The 4th International Conference on 3D Vision . Stanford,CA,USA :IEEE ,2016 :565 -571 .
[本文引用: 1]
[20]
Roberts B , Kaltwang S , Samangooei S ,et al . A dataset for lane instance segmentation in urban environments
2018 ,arXiv:.
[本文引用: 1]
[21]
Liu Y , Chu L , Chen G ,et al . PaddleSeg:A high⁃efficient development toolkit for image segmentation
2021 ,arXiv:.
[本文引用: 1]
[22]
Zhou Z W , Siddiquee M M R , Tajbakhsh N ,et al . UNet++:Redesigning skip connections to exploit multiscale features in image segmentation
IEEE Transactions on Medical Imaging ,2020 ,39 (6 ):1856 -1867 .
[23]
Chen L C , Zhu Y K , Papandreou G ,et al . Encoder⁃decoder with atrous separable convolution for semantic image segmentation
∥The 15th European Conference on Computer Vision . Munich,Germany :Springer ,2018 :833 -851 .
[本文引用: 1]
[24]
Liu Y B , Zeng M , Meng Q H . Heatmap⁃based vanishing point boosts lane detection
2020 ,arXiv:.
[本文引用: 1]
A survey of autonomous driving:Common practices and emerging technologies
1
2020
... 近年来,高级辅助驾驶系统(Advanced Driver Assistance Systems,ADAS)相关技术[1 ] 成为人工智能领域的研究热点之一,其应用方向衍生出车道保持、自动泊车定位等众多应用场景,同时也涉及安全性、实时性或驾驶行为等相关研究.自动驾驶系统划分为定位、感知、规划和人机界面等各类子问题.车道线作为感知部分的必要数据来源,为车辆正常行驶提供重要交通信息参考.随着深度学习兴起,基于神经网络模型提取车道特征、识别车道线成为新的研究方向[2 ] . ...
Advances in vision?based lane detection:Algorithms,integration,assessment,and perspectives on ACP?based parallel vision
1
2018
... 近年来,高级辅助驾驶系统(Advanced Driver Assistance Systems,ADAS)相关技术[1 ] 成为人工智能领域的研究热点之一,其应用方向衍生出车道保持、自动泊车定位等众多应用场景,同时也涉及安全性、实时性或驾驶行为等相关研究.自动驾驶系统划分为定位、感知、规划和人机界面等各类子问题.车道线作为感知部分的必要数据来源,为车辆正常行驶提供重要交通信息参考.随着深度学习兴起,基于神经网络模型提取车道特征、识别车道线成为新的研究方向[2 ] . ...
面向复杂城市交通场景的一种实时车道线检测方法
1
2019
... 车道线通常采用单目摄像头获取,其主要包括形状、颜色、纹理等特征.传统图像方法如霍夫变换在车道线检测的实时性和检测精度上很难达到平衡[3 ] .其原理主要是通过边缘滤波检测结合霍夫变换,估计车道标记位置,进行坐标变换表示车道线方向,最后拟合抛物线来检测.但这需要人工调试滤波算子,远远无法满足自动驾驶场景中对车辆的安全性和实时性的要求.遮挡、阴影等复杂场景情况也会对这些算法产生严重干扰,引发鲁棒性问题. ...
面向复杂城市交通场景的一种实时车道线检测方法
1
2019
... 车道线通常采用单目摄像头获取,其主要包括形状、颜色、纹理等特征.传统图像方法如霍夫变换在车道线检测的实时性和检测精度上很难达到平衡[3 ] .其原理主要是通过边缘滤波检测结合霍夫变换,估计车道标记位置,进行坐标变换表示车道线方向,最后拟合抛物线来检测.但这需要人工调试滤波算子,远远无法满足自动驾驶场景中对车辆的安全性和实时性的要求.遮挡、阴影等复杂场景情况也会对这些算法产生严重干扰,引发鲁棒性问题. ...
Lane detection:A survey with new results
1
2020
... 基于神经网络算法研究车道线模型[4 ] 主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST[5 ] 网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT[6 ] 将锚框(Anchor)[7 ] 和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题. ...
Ultra fast structure?aware deep lane detection
1
2020
... 基于神经网络算法研究车道线模型[4 ] 主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST[5 ] 网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT[6 ] 将锚框(Anchor)[7 ] 和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题. ...
Keep your eyes on the lane:Real?time attention?guided lane detection
1
2020
... 基于神经网络算法研究车道线模型[4 ] 主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST[5 ] 网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT[6 ] 将锚框(Anchor)[7 ] 和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题. ...
YOLOv4?5D:An effective and efficient object detector for autonomous driving
1
... 基于神经网络算法研究车道线模型[4 ] 主要分图像目标检测和图像语义分割两大类.前一种的基本原理是提取图像中车道位置的坐标和长宽数据,以点阵的形式记录存储,再利用聚合等方法将这些点连接成线.如UFAST[5 ] 网络模型将车道线图像划分成网格,通过行检测快速定位最可能包含车道的格点并形成集合,在检测实时性上取得了不错的效果,但对弯道的处理效果不佳.另一种目标检测模型LaneATT[6 ] 将锚框(Anchor)[7 ] 和注意力机制结合,有效利用全局信息,解决遮挡场景下的车道提取问题. ...
结合目标检测的小目标语义分割算法
1
2019
... 语义分割[8 ] 的方法主要利用图像中更丰富的上下文等语义信息,将每个车道变为一个实例,通过像素级的分类进行处理.如CurveLane[9 ] 网络模型基于该方法利用神经网络架构搜索(Neural Architecture Search,NAS)进行更有效的计算分配,自动融合及捕获远程连贯和准确的曲线信息,解决弯道检测的局限. ...
结合目标检测的小目标语义分割算法
1
2019
... 语义分割[8 ] 的方法主要利用图像中更丰富的上下文等语义信息,将每个车道变为一个实例,通过像素级的分类进行处理.如CurveLane[9 ] 网络模型基于该方法利用神经网络架构搜索(Neural Architecture Search,NAS)进行更有效的计算分配,自动融合及捕获远程连贯和准确的曲线信息,解决弯道检测的局限. ...
CurveLane?NAS:Unifying lane?sensitive architecture search and adaptive point blending
1
2020
... 语义分割[8 ] 的方法主要利用图像中更丰富的上下文等语义信息,将每个车道变为一个实例,通过像素级的分类进行处理.如CurveLane[9 ] 网络模型基于该方法利用神经网络架构搜索(Neural Architecture Search,NAS)进行更有效的计算分配,自动融合及捕获远程连贯和准确的曲线信息,解决弯道检测的局限. ...
Spatial as deep:Spatial CNN for traffic scene understanding
1
2018
... 尽管卷积神经网络(Convolutional Neural Network,CNN)能提取语义特征,但现有的基于CNN的模型无法充分探索图像行和列的空间能力关系[10 ] .这些关系对先验学习车道线的形状对象影响很大,尤其是外观的连续性,往往表现为一条车道线被识别为多条断开的车道线,或是识别缺失,在遮挡或者阴影条件下尤为明显.此外,车道线除了提供位置信息外,自身的颜色、形状包含更复杂的交通实际语义信息,一些方法[11 ] 只关注实时性,丢失了这些丰富的语义信息.因此,本文在上述研究的基础上,提出引入全自注意力网络结构(Transformer)的模型方法HRTran.该方法基于多尺度分辨率语义分割HRNet网络[12 ] 编码,将编码下采样替换成线性特性的Transformer结构,提取更丰富的上下文空间信息,利用多头注意力机制(Multi⁃head Self⁃Attention,MSA)解决嵌入向量层映射(Embedding)切分造成的边界语义信息不连续问题,可以提高检测的准确率.针对语义分割特点使用交并比损失函数结合Softmax交叉熵损失函数进行拟合训练,其中输出标签的类别表示实际交通含义信息,可在检测车道的同时输出其交通含义标签.该模型对遮挡、阴影、弯道等场景也有很好的检测效果,在不损失精度的情况下,具有更好的鲁棒性. ...
Towards end?to?end lane detection:An instance segmentation approach
1
2018
... 尽管卷积神经网络(Convolutional Neural Network,CNN)能提取语义特征,但现有的基于CNN的模型无法充分探索图像行和列的空间能力关系[10 ] .这些关系对先验学习车道线的形状对象影响很大,尤其是外观的连续性,往往表现为一条车道线被识别为多条断开的车道线,或是识别缺失,在遮挡或者阴影条件下尤为明显.此外,车道线除了提供位置信息外,自身的颜色、形状包含更复杂的交通实际语义信息,一些方法[11 ] 只关注实时性,丢失了这些丰富的语义信息.因此,本文在上述研究的基础上,提出引入全自注意力网络结构(Transformer)的模型方法HRTran.该方法基于多尺度分辨率语义分割HRNet网络[12 ] 编码,将编码下采样替换成线性特性的Transformer结构,提取更丰富的上下文空间信息,利用多头注意力机制(Multi⁃head Self⁃Attention,MSA)解决嵌入向量层映射(Embedding)切分造成的边界语义信息不连续问题,可以提高检测的准确率.针对语义分割特点使用交并比损失函数结合Softmax交叉熵损失函数进行拟合训练,其中输出标签的类别表示实际交通含义信息,可在检测车道的同时输出其交通含义标签.该模型对遮挡、阴影、弯道等场景也有很好的检测效果,在不损失精度的情况下,具有更好的鲁棒性. ...
Deep high?resolution representation learning for human pose estimation
2
2019
... 尽管卷积神经网络(Convolutional Neural Network,CNN)能提取语义特征,但现有的基于CNN的模型无法充分探索图像行和列的空间能力关系[10 ] .这些关系对先验学习车道线的形状对象影响很大,尤其是外观的连续性,往往表现为一条车道线被识别为多条断开的车道线,或是识别缺失,在遮挡或者阴影条件下尤为明显.此外,车道线除了提供位置信息外,自身的颜色、形状包含更复杂的交通实际语义信息,一些方法[11 ] 只关注实时性,丢失了这些丰富的语义信息.因此,本文在上述研究的基础上,提出引入全自注意力网络结构(Transformer)的模型方法HRTran.该方法基于多尺度分辨率语义分割HRNet网络[12 ] 编码,将编码下采样替换成线性特性的Transformer结构,提取更丰富的上下文空间信息,利用多头注意力机制(Multi⁃head Self⁃Attention,MSA)解决嵌入向量层映射(Embedding)切分造成的边界语义信息不连续问题,可以提高检测的准确率.针对语义分割特点使用交并比损失函数结合Softmax交叉熵损失函数进行拟合训练,其中输出标签的类别表示实际交通含义信息,可在检测车道的同时输出其交通含义标签.该模型对遮挡、阴影、弯道等场景也有很好的检测效果,在不损失精度的情况下,具有更好的鲁棒性. ...
... Sun et al[12 ] 提出的HRNet是典型的多尺度分辨率特征的并行模型,由,用于人体姿态估计任务,其模型结构如图1 所示.整个网络的骨干部分(Backbone)分成四组重复残差网络结构块组(Stage),每个残差网络结构块组由若干个残差结构块构成,每个残差块均由残差网络层连接.相邻残差网络结构块组经由一个过渡层(Transition Layer)结构进行下采样产生低分辨率的特征子网,不同尺度特征层通过融合层(Fuse Layer)结构进行信息交互,融合特征.整个编码过程中产生多个并行采样子网.这些并行子网引入交换单元,可重复接收来自其他并行子网的信息. ...
Attention is all you need
1
2017
... 在车道图像样本中,不同车道实例具有颜色、虚实等复杂的语义特征信息,引入注意力机制(Attention)可解决在网络模型深度过深时造成的梯度消失的问题.此外,受到自然语言处理(Natuarl Language Processing,NLP)领域中全自注意力网络结构(Transformer)成功应用的启发,ViT(Vision Transformer)算法[13 ] 尝试将标准的Transformer结构引入视觉任务中.具体地,ViT算法将整幅图像拆分成小图像块,并采用线性嵌入序列将这些块作为Transformer的输入,再使用监督训练的方式进行训练. ...
Swin transformer:Hierarchical vision transformer using shifted windows
1
2021
... 在Swin⁃Transformer[14 ] 中引入滑窗(Shifted Windows)的方法对MSA进行改进,解决了MSA在图像块切割处造成的上下文语义信息不连续问题.式(5) 引入偏置矩阵B ̂ ∈ ℝ 2 M - 1 × 2 M - 1 ,变为: ...
Semi?supervised classification with graph convolutional networks
1
2016
... 模型的解码部分有两个分支:一个分支直接通过双线性插值进行解码,另一个分支经由图卷积网络(Graph Convolutional Networks,GCN)[15 ] 结构分支进行解码,该结构能够较好地保留空间语义的上下文信息特征. ...
Improved large?margin softmax loss for speaker diarisation
1
2020
... 针对部分类别数量不平衡的情况,实验训练过程主要采用Softmax Loss[16 ] 和 ...
The Lovasz?softmax loss:A tractable surrogate for the optimization of the intersection?over?union measure in neural networks
1
2018
... Lovasz Loss [17 ] 损失函数结合的方式对训练的模型权重进行修正,提高模型的鲁棒性. ...
基于深度特征表示的Softmax聚类算法
1
2020
... Softmax Loss损失函数由交叉熵损失函数(Cross Entropy Loss,式(7) )与Softmax[18 ] 激活函数(式(8) )组合而成,如式(9) 所示: ...
基于深度特征表示的Softmax聚类算法
1
2020
... Softmax Loss损失函数由交叉熵损失函数(Cross Entropy Loss,式(7) )与Softmax[18 ] 激活函数(式(8) )组合而成,如式(9) 所示: ...
V?Net:Fully convolutional neural networks for volumetric medical image segmentation
1
2016
... 图像分割方法一般使用交并比(Intersection⁃over⁃Union,IoU, 也叫Jaccard Index)来评估效果.Lovasz Loss尝试直接结合交并比作为损失函数进行拟合优化,和经典的Dice Loss[19 ] 损失函数相比能解决多类别的优化问题.Lovasz Loss对每个像素i 的IoU 评价指标可以用Jaccard Index来表示,即: ...
A dataset for lane instance segmentation in urban environments
1
2018
... 原始数据集样本主要来自Ehualu车道线比赛数据集,如图5 所示.含标记样本19000张,未标记样本4000张.样张大小为1920×1080或1280×720.根据具体情况,这些数据集的类别划分包括12类车道类别,涵盖城市街区、高速公路、郊区等不同场景.与Roberts et al[20 ] 的标注方法不同,这些类别包含车道的具体标识含义,例如,白色虚线和白色实线是不同的类别,无论其在当前视角图片的左侧或是右侧.实验评估将数据集以8∶2的比例分成训练和验证数据. ...
PaddleSeg:A high?efficient development toolkit for image segmentation
1
2021
... 输入样本大小为768×512.初始学习率为1 × 10 - 3 ,ϵ 设置为5 × 10 - 6 ,权重衰减设置为1 × 10 - 4 . 使用带动量的衰减SGD优化器.训练过程共运行320000次迭代,批量大小为4.使用一块2080Ti显卡进行训练,网络框架为Paddle[21 ] . ...
UNet++:Redesigning skip connections to exploit multiscale features in image segmentation
0
2020
Encoder?decoder with atrous separable convolution for semantic image segmentation
1
2018
... 分别对比UNet++[22] 、Deeplabv3系列[23 ] 、HRNet以及改进后的模型HRTran,实验结果如表2 所示. ...
Heatmap?based vanishing point boosts lane detection
1
2020
... 图7 b中三者的差异体现在对图像中尺度分辨率更小的车道提取的能力上.图像由采样过程带来的局限在图像特征消失点处容易造成类别混淆,这在车道类别识别中是客观存在的问题.例如,在正常行驶的车道中由实线断开为虚线的情况表明存在可掉头处的含义,这在图像中应该表现为两个不同类别的三条实例接连在一起,表示可掉头的交通含义.这种情况在图像近景处能够很好地识别,但由于图像获取时造成的模糊,出现人工复核也无法正确判别的情况,这在视觉消失处的表现更明显[24 ] .此外,图像也存在远景中变形的问题.本方法的目的是在尽可能保证良好视觉区域部分识别正确的情况下,尽可能通过多尺度分辨率特征提高识别小目标特征的准确性.通过图7 b中三者对比,改进后的模型在消失处的处理结果比Deeplab更合理,改进后的HRTran能够利用空间语义信息将Deeplab识别成散点的区域识别成一个整体实例. ...