基于Transformer的城市三角网格语义分割方法

doi:10.13232/j.cnki.jnju.2024.01.003

基于Transformer的城市三角网格语义分割方法

资文杰¹, 贾庆仁¹, 陈浩^,¹^,², 李军¹^,², 景宁¹

1.国防科技大学电子科学学院，长沙，410073

2.自然资源部南方丘陵区自然资源监测监管重点实验室，长沙，410073

Transformer based urban triangle mesh semantic segmentation method

Zi Wenjie¹, Jia Qingren¹, Chen Hao^,¹^,², Li Jun¹^,², Jing Ning¹

1.College of Electronic Science and Technology，National University of Defense Technology，Changsha，410073，China

2.Key Laboratory of Natural Resources Monitoring and Supervision in Southern Hilly Region，Ministry of Natural Resources，Changsha，410073，China

通讯作者: E⁃mail：hchen@nudt.edu.cn

收稿日期: 2023-10-27

基金资助:

国家自然科学基金. U19A2058. 62106276. 42101435
湖南省自然科学基金. 2021JJ40667

Received: 2023-10-27

摘要

对城市三角网格（Urban Triangle Mesh）数据进行语义分割以识别不同类别的物体，是理解和分析三维城市场景的一种非常重要的方法.城市三角网格是一种具有丰富空间拓扑关系的三维空间几何数据，包含大量的几何信息，然而，现有的方法仅仅单独对每种几何信息进行特征提取，然后简单地融合再进行语义分割，难以利用几何信息之间的关联性，对个别物体的分割性能不佳.为了解决上述问题，提出一种基于自注意力机制Transformer的模型UMeT （Urban Mesh Transformer），其由多层感知机和MeshiT （Mesh in Transformer）模块构成，不仅可以利用多层感知机提取高维特征，还可以利用MeshiT模块计算各种几何信息之间的关联性，有效挖掘城市三角网格数据中隐含的关联.实验证明，UMeT能提取高维特征，同时保证城市三角网格数据的空间不变性，从而提升了语义分割的准确性.

关键词： 城市三角网格 ; 语义分割 ; Transformer ; mesh ; 自注意力机制

Abstract

For understanding and analyzing three⁃dimensional city scenes，semantic segmentation from urban triangle mesh data is a very important method for recognizing objects of different categories. Urban triangle mesh is a spatial three⁃dimensional geometric data with rich spatial topological relationships，which contains a lot of spatial geometric information. However，existing methods only extract features for each geometric information separately，and simply fuse them for semantic segmentation with difficulty in utilizing the relationship between spatial information，resulting in poor performance in segmenting individual objects of urban triangle mesh data. To solve these problems，we propose a network model UMeT (Urban Mesh Transformer) based on self⁃attention mechanism Transformer，which contains MLP (Multi⁃Layer Perceptron) and MeshiT(Mesh in Transformer) module. It not only uses MLP module to extract high⁃dimensional features，but also uses the MeshiT module to calculate the relationship between various geometric information，effectively mining the hidden relationship in urban triangle mesh data. UMeT extracts high⁃dimensional features，and ensures spatial invariance of urban triangle mesh data at the same time，improving the accuracy of semantic segmentation.

Keywords： urban triangle mesh data ; semantic segmentation ; Transformer ; mesh ; self⁃attention mechanism

PDF (1295KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

资文杰, 贾庆仁, 陈浩, 李军, 景宁. 基于Transformer的城市三角网格语义分割方法. 南京大学学报（自然科学）[J], 2024, 60(1): 18-25 doi:10.13232/j.cnki.jnju.2024.01.003

Zi Wenjie, Jia Qingren, Chen Hao, Li Jun, Jing Ning. Transformer based urban triangle mesh semantic segmentation method. Journal of nanjing University[J], 2024, 60(1): 18-25 doi:10.13232/j.cnki.jnju.2024.01.003

近年来，随着计算机、传感器、大数据、地理信息系统等的迅速发展，获取城市真实的三维模型数据，即城市三角网格（Urban Triangle Mesh）数据，越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据，其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务，旨在识别和分类给定三维真实城市场景中的不同对象，如树木、道路、建筑物、水体等，并将其归为预定的类别.城市三角网格语义分割在智慧城市^［1］、数字地球^［2］、三维校园^［3］等领域有重要的应用价值.

城市三角网格具有不规则、复杂的属性，含有丰富的几何信息，如图1所示，所以应用在传统二维图像上的网络模型无法直接作用在城市三角网格上，针对该数据的研究也十分罕见^［4］.并且，现有方法都是针对城市三角网格数据的单一几何信息进行特征提取，简单地融合之后再进行语义分割，导致城市三角网格语义分割的效果不佳，阻碍了其在前文所述领域中的发展.所以，只考虑单一几何信息的方法不再适用于城市三角网格这类大型三维空间数据.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 城市三角网格

Fig.1 Urban triangle mesh

现有的针对城市三角网格语义分割问题的解决方案都分两步.第一步为过度分割，网格数据中具有相似纹理、颜色、方向、三角面片密度等信息的相邻三角面片构成的区域称为超面，分割超面的过程即为过度分割.第二步为分类，即对过度分割生成的超面进行分类.

本文采用基于平面的线性最小二乘法拟合的区域增长方法对城市三角网格数据进行过度分割，再提出一种基于自注意力机制Transformer^［5］的网络模型UMeT对超面进行分类.UMeT由多层感知机（Multi⁃Layer Perceptron，MLP）和Trans⁃former构成.MLP直接将超面的几何信息映射到高维特征；MeshiT是基于Transformer改进的网络模块，UMeT利用MeshiT提取超面中各类几何信息间的全局关联性.由于MeshiT对超面的空间坐标进行了位置编码，因此UMeT也保证了空间不变性.本文的主要贡献如下.

（1）设计了一种基于Transformer的网络模型UMeT，可以直接对复杂、不规则的城市三角网格进行语义分割.

（2）首次引入自注意力机制Transformer解决城市三角网格语义分割问题.另外，MeshiT模块可以很好地提取超面中各类几何信息间的全局关联性，同时还保证了空间不变性.

（3）在城市三角网格真实数据集SUM⁃Helsinki^［6］上的实验结果表明，本文提出的UMeT的分割性能优于最先进的模型.

1 相关理论

现有的对三维数据语义分割的研究大多针对点云^［7］、单个对象的三角网格^［8］数据等，对城市三角网格数据的研究十分罕见.单个对象三角网格数据和城市三角网格数据是几何空间数据.

1.1　机器学习与三角网格数据

单个对象网格数据指计算机图形学中的小型网格模型，如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域^［9］.而三角网格复杂、不规则，无法直接使用CNN （Convolutional Neural Networks）在三角网格上提取特征.Sinha et al^［10］定义了三角网格的全局参数化，使得适用于二维图像的网络模型可以直接为三角网格提取特征，但预测结构的好坏完全取决于参数化的质量.同时，一些研究者获取三角网格模型的多视图，然后使用CNN对多视图捕获特征，最终对其进行分类^［11］.由于全局参数方法无法避免三角网格空间几何的失真，Masci et al^［12］设计了局部参数方法，定义了测地卷积神经网络，将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al^［12］设计的模型相比，He et al^［13］设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是，局部参数化的方法只关注三角网格数据局部信息，其性能取决于数据的分辨率.此外，三角网格是一种图数据，利用图神经网络的特性可以获取三角网格全局空间依赖关系^［14］，但上述方法都没有使用网格的空间结构信息.Hanocka et al^［15］设计了MeshCNN网络，定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型，可以保证网格的空间不变性.Hu et al^［16］提出基于网格本身的卷积和池化，比MeshCNN更通用，获取的空间几何信息也更丰富.

1.2　城市三角网格语义分割

尽管有大量针对小型三角网格模型数据的研究，但对于大型数据城市三角网格的分析十分少有.Rouhani et al^［17］利用马尔科夫随机场（Markov Random Field，MRF）来过度分割城市三角网格得到超面，再使用随机森林模型对超面进行分类.Gao et al^［6］利用基于平面的线性最小二乘法拟合的区域增长方法对城市三角网格进行过度分割获取超面，区域增长可以避免MRF中附近三角面的干扰，只需考虑设定的阈值.但上述算法都没有考虑各种几何信息之间的隐含联系.

1.3　自注意力机制Transformer

Transfor⁃mer^［6］最初是一种用于自然语言处理任务的深度学习模型，如文本分类^［18］和语言翻译^［19］等.由于Transformer的强大性能，众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al^［20］设计了ViT （Vision Transformer）模型用于图像识别，通过引入Transformer结构在Image⁃Net^［21］上取得了举世瞩目的成绩.Carion et al^［22］设计了DERT （Detection Transformer）模型，将目标检测任务转化为一个序列预测问题，采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复，虽然模型结构简单，但预测性能强劲.Chu et al^［23］提出CPVT （Conditional Position Encoding Vision Transformer）模型，去掉了Transformer中的绝对位置编码，使Transformer的泛化性更强，适应性更广.Gao et al^［24］将Transformer应用到道路三维姿态估计上，证明Transformer适用于三维空间数据.d'Ascoli et al^［25］提出ConViT （Convolution Vision Transformer）网络模型，利用CNN中归纳偏差的优点来改进Transformer，并且加入门控位置自注意力机制来获取局部位置特征，其在ImageNet数据集上的分类性能优于最先进的模型.

2 算法描述

2.1　算法框架

由于城市三角网格是复杂的三维几何数据，直接对其进行分割会导致物体边缘的三角面片分类不准，将有相似特征的三角面片进行聚类，即过度分割，可以很好地解决边缘分割不准的问题.本文提出的语义分割方法分两步：其一为过度分割，即将数据分割为超面；另一为分类，即对超面分类.具体如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 城市三角网格语义分割流程图

Fig.2 The workflow of urban triangle mesh semantic segmentation

2.2　过度分割

借鉴文献［7］，本文采用的过度分割方法是基于平面的线性最小二乘法拟合的区域增长算法.采用此算法是为了找出城市三角网格数据中的所有平面区域，为此，将距离阈值设置为0.5 m，该阈值指定了希望过分割方法识别的最小几何特征，即基于区域生长的过分割方法将无法区分两个距离小于此阈值的平行面.将三角面片的角度的阈值设置为90度，这足以应对高水平的噪声（例如，距离值很小，但三角形法向与平面法向之间的夹角很大）.此外，最小面积设置为零，以允许任意大小的平面段.结果如图3所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 城市三角网格(a)和超面(b)

Fig.3 Urban triangle mesh (a) and superfacet (b)

2.3　超面分类

本文提出的基于Transformer的城市三角网格数据语义分割模型UMeT由MLP和MeshiT模块构成，如图4所示.包含四个MeshiT模块，即图中 $N = 4$ ； $Q, K$ 和V是可学习参数，分别表示注意力机制中的query，key和value；Re⁃Attention表示MeshiT模块采用的注意力机制；⊕表示相加，连接初始特征和高维特征，形成残差结构.首先，将过度分割产生的超面通过MLP提取其空间特征；然后，将超面的空间坐标与特征进行聚合，生成位置嵌入特征；第三步，将位置嵌入特征输入MeshiT模块，获取高维抽象特征；最后，通过MLP进行分类.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 UMeT模型的整体概览

Fig.4 An overview of the UMeT model

2.3.1　MLP

参考文献［6］，过度分割得到超面，经过特征计算得到基于特征根的特征、海拔、面积、颜色等特征.将上述特征聚合成一个特征向量 $X$ ，输入MLP，将其映射为抽象的空间特征 $X_{s}$ .MLP的具体操作如下：

M L P (X) = D r o p o u t (R e L U (L i n e a r (X)))

(1)

其中，Linear表示线性变化；ReLU是线性整流函数，是一种激活函数；Dropout是随机失活某些神经元.设定随机丢弃率为0.5，即50%.MLP共有三层，第一层隐含层有128个神经元，第二层隐含层有256个神经元，输出层有509个神经元.MeshiT模块中的MLP为一层，其作用是将抽象的高维空间几何特征分类^［26］.

2.3.2　MeshiT

MeshiT模块由两个归一化层、六头注意力机制Re⁃Attention和MLP构成.其中，归一化层与Re⁃Attention组成一个残差结构，可以有效地避免过拟合；其他的归一化层和MLP构成另一个残差结构.

将空间特征 $X_{s}$ 与空间位置进行聚合得到位置几何特征 $X_{p}$ ，对其进行归一化得到归一化的特征 $X_{n}$ .归一化如下所示：

X_{n} = \frac{X_{p} - X_{m i n}}{X_{m a x} - X_{m i n}}

(2)

其中， $X_{m i n}$ 表示特征上在值最小的数值， $X_{m a x}$ 表示特征上在值最大的数值. $X_{n}$ 通过线性变化得到可学习参数Q，K和V，再通过多头注意力机制.本文采用六头注意力机制Re⁃Attention，即图2中 $h = 6$ .六头注意力机制表明使用六个同网络但初始化参数不同的Re⁃Attention，对计算的结果进行相加融合.Re⁃Attention的计算如下：

\begin{array}{l} R e ⁃ A t t e n t i o n (Q, K, V) = \\ M^{T} (S o f t m a x (\frac{Q K^{T}}{\sqrt[]{d}})) V \end{array}

(3)

其中， $M$ 是人为定义的可学习变换矩阵， $M^{T}$ 表示 $M$ 的转置矩阵； $d$ 是一个超参数，大小为64；Softmax是归一化指数函数，可以将多个神经元进行归一化，使得神经元的输出在 $(0,1)$ .Re⁃Attention的优点是双重的：首先，利用不同注意力头之间的相互作用，收集它们的补充信息，并对注意力图多样性进行改进；此外，它是有效且易于实现的.

MeshiT包含两个残差结构，使网络可以加深，并且能训练出有效的特征表示，提高了网络的泛化能力.由于UMeT使用了四个MeshiT模块，所以加入残差结构十分必要.

2.3.3　损失函数

UMeT的损失函数采用交叉熵函数，可以很好地处理多分类问题中的类别不平衡的问题.具体计算如下：

L (y, \hat{y}) = - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1}^{m} y_{i j} l g {\hat{y}}_{i j}

(4)

其中， $y_{i j}$ 表示第 $i$ 个样本在第 $j$ 个超面的标签， ${\hat{y}}_{i j}$ 表示第 $i$ 个样本在第 $j$ 个超面的预测值， $n$ 表示样本数， $m$ 表示类别数.

3 实验结果与分析

3.1　数据集

采用开源数据集SUM⁃Helsinki，其是语义城市网格的最大基准数据集，覆盖芬兰赫尔辛基约四平方公里，共有六种物体类别：地面、高植物、建筑物、水、车辆和船.整个数据集包含64块地图，每块覆盖250 m×250 m的区域.使用40块地图（整个数据集的62.5%）作为训练集，12块地图（18.75%）作为测试集，另外12块地图作为验证集.

3.2　评估指标

采用召回率（Recall，R）、精确度（Precision，P）、F1分数（F1）、平均准确率（Mean Accuracy，mAcc）和平均交并比（Mean Intersection⁃over⁃Union，mIoU）作为评价指标.如式（5）~式（9）所示：

R = \frac{T P}{T P + F N}

(5)

P = \frac{T P}{T P + F P}

(6)

F 1 = \frac{2 \times P \times R}{P + R}

(7)

m A c c = \frac{T P + T N}{T P + T N + F P + F N}

(8)

m I o U = \frac{T P}{T P + F P + F N}

(9)

其中，TP，FP，TN，FN分别表示正样本判定为正、正样本判定为负、负样本判定为负、负样本判定为正.

3.3　实验设置

在NVIDIA Tesla V100 GPU 32 GB RAM 32 GB VRAM的服务器上进行实验.学习率设置为 $6 \times 10^{- 4}$ ，每50轮训练学习率下降50%.

3.4　实验结果与分析

为了验证本文的UMeT算法的有效性，引入目前最先进的算法进行对比实验，包括MRF⁃RF^［17］，SUM⁃RF^［6］和KPConv^［27］.

MRF⁃RF采用马尔可夫随机场对城市三角网格进行过度分割，然后使用随机森林对超面进行分类，实现语义分割.

SUM⁃RF是采用基于平面的线性最小二乘法拟合的区域增长算法，再调用随机森林算法进行分类.

KPConv是直接将卷积应用到点云的方法.

本文的UMeT与对比模型的实验结果如表1所示，表中黑体字表示性能最优.由表可见，UMeT在全方位上优于其他各个模型.平均交并比mIoU，UMeT是MRF⁃RF和KPConv的两倍多，因为UMeT的MeshiT模块可以很好地提取超面中各类几何信息间的全局关联性，同时，加入空间绝对坐标可以提取隐含的空间位置关系，且保证了空间不变性.SUM⁃RF在各方面优于MRF⁃RF，说明基于平面的线性最小二乘法拟合的区域增长算法优于马尔可夫随机场过度分割算法，因为基于平面的线性最小二乘法拟合的区域增长算法可以很好地区分平边与凹凸不平的三角面片.UMeT包含四个MeshiT的串联，这种结构很容易过拟合，但是加入的残差结构可以将网络层数叠得很深，且不会过拟合.MeshiT的Re⁃Attention是六头注意力机制，即同时训练六个相同的注意力机制，并对输出结果相加融合，这使UMeT有更强的鲁棒性和泛化性.虽然UMeT的平均准确率mAcc和SUM⁃RF一致，但是其F1，R和mIoU优于SUM⁃RF，说明UMeT的综合性能更强，对各个类别物体的识别率都较高.这是因为UMeT不仅可以利用MLP提取高维特征，还可以利用MeshiT模块计算各种几何信息之间的关联性，并有效挖掘城市三角网格数据中隐含的关联.

表1 UMeT及对比模型的实验结果

Table 1 Experimental results of UMeT and baselines

模型	F1	mIoU	mAcc	R
UMeT	0.805	0.692	0.931	0.745
MRF⁃RF	0.345	0.273	0.664	0.342
KPConv	0.408	0.273	0.527	0.436
SUM⁃RF	0.756	0.680	0.931	0.715

新窗口打开| 下载CSV

表2为UMeT和对比模型在SUM⁃Helsinki数据集六个类别上的F1，表中黑体字表示性能最优.F1越高，模型的性能越好.由表可知，除了高植物类别，UMeT在其他类别上的F1都超过了对比模型，证明UMeT的鲁棒性强于各个对比模型.MRF⁃RF的F1都十分低，说明采用马尔可夫随机场对城市三角网格进行过度分割不合适.对车辆类别的分割，UMeT的F1比KPConv提升23.4%，比SUM⁃RF提升3.1%，证明UMeT对小物体的识别强于其他模型.对船类别的分割，MLP的F1为0.124，UMeT为0.173，证明UMeT中的MLP能够很好地将城市三角网格的特征映射到抽象的空间特征向量中，并且，MeshiT模块能够捕获超面中各类几何信息间的全局关联性，而对比模型只是简单地将各类特征进行特征提取与映射，最后再简单地叠加融合，使这些模型的语义分割性能较弱.

表2 UMeT及对比模型的F1分数

Table 2 F1 score of UMeT and baselines

模型	地面	高植物	建筑物	水	车辆	船
UMeT	0.923	0.928	0.965	0.939	0.631	0.173
MRF⁃RF	0.054	0.924	0.782	0.004	0.390	0.001
KPConv	0.510	0.544	0.567	0.739	0.511	0.006
SUM⁃RF	0.915	0.929	0.960	0.937	0.612	0.165

新窗口打开| 下载CSV

图5展示了UMeT和对比模型对城市三角网格进行语义分割的结果.由图可见，MRF⁃RF会大量地将地面预测成建筑物，也会将地面错误地预测成水体.MLP对建筑物底端的物体常常误判，正确率较低.和SUM⁃RF相比，UMeT对小物体（车辆）和细节的识别更准确，因为UMeT中的MLP能够很好地将城市三角网格的特征映射到抽象的空间特征向量中，MeshiT模块能捕获超面中各类几何信息间的全局关联性.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 城市三角网格语义分割的结果

Fig.5 The semantic segmentation result of urban triangle mesh

3.5　消融实验

本文提出的UMeT由MLP和MeshiT组成.MLP直接将超面的几何信息映射到高维特征，该特征可以直接用于分类；MeshiT是基于Transformer改进的网络模块，UMeT利用MeshiT提取超面中各类几何信息间的全局关联性，使UMeT的分类结果更准确.为了验证各模块的有效性，对UMeT进行了消融实验，实验结果如表3所示，表中黑体字表示性能最优.由表可见，和MLP相比，UMeT的性能有大幅提升，F1提升16.5%，mIoU提升16.1%，体现了MeshiT模块的重要性.MeshiT模块可以很好地提取超面中各类几何信息间的全局关联性，同时，加入空间绝对坐标可以提取隐含的空间位置关系，并保证空间不变性.

表3 UMeT的消融实验结果

Table 3 Results of the ablation experiments of UMeT

模型	F1	mIoU	mAcc	R
MLP	0.691	0.596	0.903	0.701
UMeT	0.805	0.692	0.931	0.745

新窗口打开| 下载CSV

4 结论

本文提出一种基于Transformer的城市三角网格语义分割的网络模型UMeT.UMeT由MLP和四个MeshiT模块构成，MLP能够将城市三角网格特征映射成抽象的空间特征；MeshiT模块包含一个六头的注意力机制，能够捕获超面中各类几何信息间的全局关联性.

基于此模型框架，探索更深层次的空间几何特征和全局空间相似度是下一步的工作.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

王静远，李超，熊璋，等.

以数据为中心的智慧城市研究综述

计算机研究与发展，2014，51(2)：239-259.