以数据为中心的智慧城市研究综述
1
2014
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
Survey of data?centric smart city
1
2014
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
从全球激光点云到三维数字地球空间框架:全球精确测绘进阶之路
1
2022
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
From global laser point cloud acquisition to 3D digital geospatial framework:The advanced road of global accurate mapping
1
2022
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
基于osgEarth的三维虚拟校园可视化
1
2020
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
Visualization of 3D virtual campus based on osgEarth
1
2020
... 近年来,随着计算机、传感器、大数据、地理信息系统等的迅速发展,获取城市真实的三维模型数据,即城市三角网格(Urban Triangle Mesh)数据,越来越容易.城市三角网格是一种带纹理的城市场景下的三角网格数据,其可以将使用者引入符合人眼的直观真实世界.城市三角网格语义分割是计算机视觉领域中一项重要任务,旨在识别和分类给定三维真实城市场景中的不同对象,如树木、道路、建筑物、水体等,并将其归为预定的类别.城市三角网格语义分割在智慧城市[1]、数字地球[2]、三维校园[3]等领域有重要的应用价值. ...
PSSNet:Planarity?sensible semantic segmentation of large?scale urban meshes
1
2023
... 城市三角网格具有不规则、复杂的属性,含有丰富的几何信息,如图1所示,所以应用在传统二维图像上的网络模型无法直接作用在城市三角网格上,针对该数据的研究也十分罕见[4].并且,现有方法都是针对城市三角网格数据的单一几何信息进行特征提取,简单地融合之后再进行语义分割,导致城市三角网格语义分割的效果不佳,阻碍了其在前文所述领域中的发展.所以,只考虑单一几何信息的方法不再适用于城市三角网格这类大型三维空间数据. ...
Attention is all you need
1
2017
... 本文采用基于平面的线性最小二乘法拟合的区域增长方法对城市三角网格数据进行过度分割,再提出一种基于自注意力机制Transformer[5]的网络模型UMeT对超面进行分类.UMeT由多层感知机(Multi⁃Layer Perceptron,MLP)和Trans⁃former构成.MLP直接将超面的几何信息映射到高维特征;MeshiT是基于Transformer改进的网络模块,UMeT利用MeshiT提取超面中各类几何信息间的全局关联性.由于MeshiT对超面的空间坐标进行了位置编码,因此UMeT也保证了空间不变性.本文的主要贡献如下. ...
SUM:A benchmark dataset of semantic urban meshes
5
2021
... (3)在城市三角网格真实数据集SUM⁃Helsinki[6]上的实验结果表明,本文提出的UMeT的分割性能优于最先进的模型. ...
... 尽管有大量针对小型三角网格模型数据的研究,但对于大型数据城市三角网格的分析十分少有.Rouhani et al[17]利用马尔科夫随机场(Markov Random Field,MRF)来过度分割城市三角网格得到超面,再使用随机森林模型对超面进行分类.Gao et al[6]利用基于平面的线性最小二乘法拟合的区域增长方法对城市三角网格进行过度分割获取超面,区域增长可以避免MRF中附近三角面的干扰,只需考虑设定的阈值.但上述算法都没有考虑各种几何信息之间的隐含联系. ...
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
... 参考文献[6],过度分割得到超面,经过特征计算得到基于特征根的特征、海拔、面积、颜色等特征.将上述特征聚合成一个特征向量,输入MLP,将其映射为抽象的空间特征.MLP的具体操作如下: ...
... 为了验证本文的UMeT算法的有效性,引入目前最先进的算法进行对比实验,包括MRF⁃RF[17],SUM⁃RF[6]和KPConv[27]. ...
A review of deep learning?based semantic segmentation for point cloud
2
2019
... 现有的对三维数据语义分割的研究大多针对点云[7]、单个对象的三角网格[8]数据等,对城市三角网格数据的研究十分罕见.单个对象三角网格数据和城市三角网格数据是几何空间数据. ...
... 借鉴文献[7],本文采用的过度分割方法是基于平面的线性最小二乘法拟合的区域增长算法.采用此算法是为了找出城市三角网格数据中的所有平面区域,为此,将距离阈值设置为0.5 m,该阈值指定了希望过分割方法识别的最小几何特征,即基于区域生长的过分割方法将无法区分两个距离小于此阈值的平行面.将三角面片的角度的阈值设置为90度,这足以应对高水平的噪声(例如,距离值很小,但三角形法向与平面法向之间的夹角很大).此外,最小面积设置为零,以允许任意大小的平面段.结果如图3所示. ...
DiffusionNet:Discretization agnostic learning on surfaces
1
2022
... 现有的对三维数据语义分割的研究大多针对点云[7]、单个对象的三角网格[8]数据等,对城市三角网格数据的研究十分罕见.单个对象三角网格数据和城市三角网格数据是几何空间数据. ...
HodgeNet:Learning spectral geometry on triangle meshes
1
2021
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
Deep learning 3D shape surfaces using geometry images
1
2016
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
A multi?view recurrent neural network for 3D mesh segmentation
1
2017
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
Geodesic convolutional neural networks on riemannian manifolds
2
2015
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
... [12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
CurvaNet:Geometric deep learning based on directional curvature for 3D shape analysis
1
2020
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
MeshWalker:Deep mesh understanding by random walks
1
2020
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
MeshCNN:A network with an edge
1
2019
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
Subdivision?based mesh convolution networks
1
2022
... 单个对象网格数据指计算机图形学中的小型网格模型,如人体模型、飞机模型、杯子模型等.利用机器学习对几何空间数据进行分析已经成为一个热门领域[9].而三角网格复杂、不规则,无法直接使用CNN (Convolutional Neural Networks)在三角网格上提取特征.Sinha et al[10]定义了三角网格的全局参数化,使得适用于二维图像的网络模型可以直接为三角网格提取特征,但预测结构的好坏完全取决于参数化的质量.同时,一些研究者获取三角网格模型的多视图,然后使用CNN对多视图捕获特征,最终对其进行分类[11].由于全局参数方法无法避免三角网格空间几何的失真,Masci et al[12]设计了局部参数方法,定义了测地卷积神经网络,将三角网格数据带曲率的表面平摊在二维平面上.和Masci et al[12]设计的模型相比,He et al[13]设计了含矢量方向性曲率的网络Curvanet来捕捉局部空间特征.但是,局部参数化的方法只关注三角网格数据局部信息,其性能取决于数据的分辨率.此外,三角网格是一种图数据,利用图神经网络的特性可以获取三角网格全局空间依赖关系[14],但上述方法都没有使用网格的空间结构信息.Hanocka et al[15]设计了MeshCNN网络,定义了可以直接在网格数据上进行的卷积操作以及池化操作.MeshCNN是基于网格数据的边所提出的模型,可以保证网格的空间不变性.Hu et al[16]提出基于网格本身的卷积和池化,比MeshCNN更通用,获取的空间几何信息也更丰富. ...
Semantic segmentation of 3D textured meshes for urban scene analysis
2
2017
... 尽管有大量针对小型三角网格模型数据的研究,但对于大型数据城市三角网格的分析十分少有.Rouhani et al[17]利用马尔科夫随机场(Markov Random Field,MRF)来过度分割城市三角网格得到超面,再使用随机森林模型对超面进行分类.Gao et al[6]利用基于平面的线性最小二乘法拟合的区域增长方法对城市三角网格进行过度分割获取超面,区域增长可以避免MRF中附近三角面的干扰,只需考虑设定的阈值.但上述算法都没有考虑各种几何信息之间的隐含联系. ...
... 为了验证本文的UMeT算法的有效性,引入目前最先进的算法进行对比实验,包括MRF⁃RF[17],SUM⁃RF[6]和KPConv[27]. ...
Deep learning?based text classification:A comprehensive review
1
2021
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
Sign language transformers:Joint end?to?end sign language recognition and translation
1
2020
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
An image is worth 16×16 words:Transformers for image recognition at scale
1
2020
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
ImageNet:A large?scale hierarchical image database
1
2009
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
End?to?end object detection with transformers
1
2020
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
Twins:Revisiting the design of spatial attention in vision transformers
1
2021
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
SCAT:Stride Consistency with Auto?regressive regressor and Transformer for hand pose estimation
1
2021
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
ConViT:Improving vision transformers with soft convolutional inductive biases
1
2021
... Transfor⁃mer[6]最初是一种用于自然语言处理任务的深度学习模型,如文本分类[18]和语言翻译[19]等.由于Transformer的强大性能,众多计算机视觉的研究者将其扩展到自己的领域.Dosovitskiy et al[20]设计了ViT (Vision Transformer)模型用于图像识别,通过引入Transformer结构在Image⁃Net[21]上取得了举世瞩目的成绩.Carion et al[22]设计了DERT (Detection Transformer)模型,将目标检测任务转化为一个序列预测问题,采用Transformer的编码器和解码器结构对图像特征进行压缩编码以及恢复,虽然模型结构简单,但预测性能强劲.Chu et al[23]提出CPVT (Conditional Position Encoding Vision Transformer)模型,去掉了Transformer中的绝对位置编码,使Transformer的泛化性更强,适应性更广.Gao et al[24]将Transformer应用到道路三维姿态估计上,证明Transformer适用于三维空间数据.d'Ascoli et al[25]提出ConViT (Convolution Vision Transformer)网络模型,利用CNN中归纳偏差的优点来改进Transformer,并且加入门控位置自注意力机制来获取局部位置特征,其在ImageNet数据集上的分类性能优于最先进的模型. ...
MLP?mixer:An all?MLP architecture for vision
1
2021
... 其中,Linear表示线性变化;ReLU是线性整流函数,是一种激活函数;Dropout是随机失活某些神经元.设定随机丢弃率为0.5,即50%.MLP共有三层,第一层隐含层有128个神经元,第二层隐含层有256个神经元,输出层有509个神经元.MeshiT模块中的MLP为一层,其作用是将抽象的高维空间几何特征分类[26]. ...
KPConv:Flexible and deformable convolution for point clouds
1
2019
... 为了验证本文的UMeT算法的有效性,引入目前最先进的算法进行对比实验,包括MRF⁃RF[17],SUM⁃RF[6]和KPConv[27]. ...