边云协同计算下基于ST⁃GCN的监控视频行为识别机制

doi:10.13232/j.cnki.jnju.2022.01.016

边云协同计算下基于ST⁃GCN的监控视频行为识别机制

蒋伟进¹^,², 孙永霞^,¹, 朱昊冉¹, 陈萍萍¹, 张婉清¹, 陈君鹏¹

1.湖南工商大学计算机学院，长沙，410205

2.新零售虚拟现实技术湖南省重点实验室，长沙，410205

Surveillance video behavior recognition mechanism based on ST⁃GCN under edge⁃cloud collaborative computing

Jiang Weijin¹^,², Sun Yongxia^,¹, Zhu Haoran¹, Chen Pingping¹, Zhang Wanqing¹, Chen Junpeng¹

1.School of Computer Science, Hunan University or Technology and Business, Changsha, 410205, China

2.Key Laboratory of Hunan Province for New Retail Virtual Reality Technology, Changsha, 410205, China

通讯作者: E⁃mail：1552865513@qq.com

收稿日期: 2021-06-16

基金资助:

国家自然科学基金.  61472136.  61772196
湖南省自然科学基金.  2020JJ249
湖南省教育厅科研重点项目.  21A0374
湖南省社会科学基金重点项目.  2016ZDB006
湖南省社会科学成果评审委员会课题重点项目.  湘社评19ZD1005

Received: 2021-06-16

摘要

智慧城市的迅速发展为人们的日常生活带来了极大的便捷，其中视频监控系统越来越智能化是信息技术逐渐成熟的必然结果.人体行为识别是智能安防监控领域的重要任务之一，但大量的边缘监控设备产生了井喷式图像视频数据，传统单一的云计算模式已无法全面有效地应对海量数据的计算与处理.提出一种大数据驱动下采用边云协同计算的人体行为识别机制，将以往中心化的计算扩展为边缘、云端协同处理.首先，在边缘节点 $N_{0}$ 对视频进行相似帧去除的预处理并对提取的骨架序列进行多层次表示，然后云端对时空图卷积神经网络（Spatial Temporal Graph ConvNet，ST⁃GCN）模型进行训练并将其部署至边缘节点 $N_{1} ~ N_{m}$ ，边缘节点使用训练好的模型完成行为识别任务并将结果上传至云端进行融合得出最终行为类别.实验结果证明，所提方案能有效减少以往中心化计算的网络传输量及云端存储压力问题，且边云协同的优势使得模型识别的准确率稳定提升了2.2%以上.

关键词： 边云协同 ; 行为识别 ; 时空图卷积 ; 骨架序列 ; 相似帧去除

Abstract

The rapid development of smart cities has brought great convenience to people's daily lives. Among them，the increasingly intelligent video surveillance system is the inevitable result of the gradual maturity of information technology. Human behavior recognition is one of the important tasks in the field of intelligent security monitoring. However，a large number of edge monitoring devices have produced blowout image and video data. The traditional single⁃cloud computing model has been unable to effectively deal with the calculation and processing of massive data. This paper proposes a human behavior recognition mechanism that uses edge⁃cloud collaborative computing driven by big data，which expands the previous centralized computing to edge and cloud collaborative processing. Firstly，at the edge node $N_{0}$ ，the video is preprocessed to remove similar frames and the extracted skeleton sequence is expressed in multiple levels. Then，the cloud trains the Spatial Temporal Graph ConvNet (ST⁃GCN) model and deploys it to the edge nodes $N_{1} ~ N_{m}$ . And the Edge uses the trained model to complete behavior recognition tasks and uploads the results to the cloud for fusion to obtain the final behavior category. The experimental results prove that the proposd algorithm effectively reduces the network transmission volume and cloud storage pressure problems of the previous centralized computing. And the advantages of edge⁃cloud collaboration make the model recognition accuracy rate steadily increasing more than 2.2%.

Keywords： edge⁃cloud collaboration ; behavior recognition ; ST⁃GCN ; skeleton sequence ; similar frame removal

PDF (978KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

蒋伟进, 孙永霞, 朱昊冉, 陈萍萍, 张婉清, 陈君鹏. 边云协同计算下基于ST⁃GCN的监控视频行为识别机制. 南京大学学报（自然科学）[J], 2022, 58(1): 163-174 doi:10.13232/j.cnki.jnju.2022.01.016

Jiang Weijin, Sun Yongxia, Zhu Haoran, Chen Pingping, Zhang Wanqing, Chen Junpeng. Surveillance video behavior recognition mechanism based on ST⁃GCN under edge⁃cloud collaborative computing. Journal of nanjing University[J], 2022, 58(1): 163-174 doi:10.13232/j.cnki.jnju.2022.01.016

在数字化、超清化、网络化和智能化的加持下，视频监控技术在智慧城市、智能家居等诸多信息化场景中发挥着极其关键的作用，监控系统与大数据、人工智能、云计算及物联网技术的交互发展推动了相关应用爆炸式增长.然而，现有的超清监控设备产生的海量视频图像数据对以云计算为核心的视频监控架构造成了极大的压力，针对上述问题，边云协同的提出为搭建大数据驱动下的新型视频监控系统提供了新的解决思路.边云协同是利用边缘节点与云端服务器分别的优势，协同执行计算任务，共同完成整体目标.其中边缘节点根据云端服务器的统筹安排完成部分计算任务，比如，对需要预处理的数据进行清洗降噪，剔除冗余无效的内容，然后向云端服务器上传关键数据和部分计算结果；云端统筹管理所有边缘节点，通过数据分析和模型训练为边缘节点持续优化业务规则和算法模型，以实现增强边缘智能和应用部署的目标^［1］.

监控系统中的行为识别关注如何从视频图像中判断人体正在执行的动作，但由于许多实际应用场景中的图像数据是由非欧氏空间生成的，图结构含有丰富的语义信息，图中节点无序、大小不等、邻域集不同等这些特征导致图数据是不规则的，因而一些重要的操作，例如卷积在图像上很容易计算，但并不适合直接用于图域.卷积神经网络（Convolutional Neural Network，CNN）作为深度学习的代表性网络，其优点为平移不变性、参数共享性等，和传统神经网络相比，其识别结果更为准确，但CNN的适用范围仍局限于基于欧氏空间的图像序列中的特征提取.为了应对上述问题，本文引入时空图卷积神经网络（Spatial Temporal Graph ConvNet，ST⁃GCN）来解决非欧式空间生成的图像中的行为检测识别，与传统的CNN模型相比，其最大的不同在于其能完成图结构数据中人体关节在空间、时间中的特征提取.

本文的主要贡献：

（1）提出一种基于边云协同计算的行为识别机制，将以往中心化的计算扩展为边缘、云端协同处理.云端对模型进行训练并将其部署至各个边缘节点，边缘节点使用训练好的模型完成行为识别任务并将结果上传至云端进行融合决策.

（2）设计了一套相似帧的检测机制以降低视频中相似图像的冗余度.利用余弦感知哈希相似性计算得到两张图像的相似性，边缘设备可去除相似性极高的视频帧并保留种子帧，使得边缘设备在获得有价值数据的同时还能提升处理速度.

（3）使用基于动态骨架序列建立的ST⁃GCN模型完成人行为识别任务，弥补了基于空间域的GCN模型中的不足.该模型可以在图结构上提取空域特征并与时域特征结合在一起.

1 相关工作

在监控系统中应用行为识别技术进行实时视频检测和视频内容分析能够实现真正意义上的智能安防，在构建智慧城市中有广泛的应用前景.针对海量监控视频数据，现有的云计算模式已无法全面有效应对其计算与处理，所以，为了提升监控系统的效率，将云计算模式拓展为边云协同计算.苏命峰等^［2］研究边云协同计算下基于预测的资源部署与任务调度优化，探索云端服务器从横向和纵向两个时间维度综合预测可能发生的任务，并优化部署边缘节点上任务运行所需资源.游伟和王雪^［3］分析边云协同智能技术在电力领域的应用前景，边云协同具有节省带宽、减少时延、保护数据隐私等优点，有助于电力领域的发展.Soleimani and Nazerfard^［4］将边云协同架构应用于柔性智能制造技术方案中，为满足SMT产线柔性智能的生产需求，改进原有的单一云计算模式，开展在端、边、云协同下柔性智能制造技术方案的研究.夏士超等^［5］设计一个硬件和计算资源结合的分配方案来研究云边协同下的任务卸载，使所有设备的加权时延最小化.

人体的高级特征为骨骼关节点序列，和RGB数据相比，能有效避免由背景遮挡、光照变化以及视角变化产生的噪声影响.在2D或3D坐标形式下，动态骨骼模态可以由人类关节位置的时间序列表示，通过分析其动作模式进行人类行为识别.早期基于骨架序列进行动作识别的方法是使用关节坐标的时间序列形成特征向量，并对其进行时序分析.Jiang et al^［6］使用隐马尔科夫模型在时间序列上对行为特征进行建模，详细列举了隐状态下行为模式的转换过程.Kim and Reiter^［7］利用Lie群描述骨架特征，然后通过动态时间规整对这些特征在时序上的关系进行描述，最后使用多类支持向量机完成行为识别任务.朱红蕾等^［8］设计一种基于VLAD的多特征融合编码方法.Carslake et al^［9］设计一种基于骨架特征的时空权重编码方法.但以上这些方法没有充分考虑人类关节在空间上的关系，而这种空间关系对识别人类行为至关重要，因此引入ST⁃GCN来完成图结构数据中人体关节在空间、时间中的特征提取.

当前火热的深度学习在行为识别方面已取得较好成效，其中CNN可以大大提升行为特征在空间域上的表达能力，主要用来挖掘行为识别的空间域模式，而循环神经网络（Recurrent Neural Network，RNN）则挖掘行为识别的时间域模式^［10］.Ullach et al^［11］在已有的生成对抗网络框架基础上构建运动特征生成器，进行判断光流特征的学习.梁冰和纪雯^［12］在CNN的基础上对行为特征的时间池化和长期信息依赖进行研究.陈昌红等^［13］对时空序列上卷积网络的分解模型展开研究，即把3D的时空卷积分解为2D的空间卷积核和1D的时间卷积层以完成人体行为的表示和识别.蒋伟进等^［14］进一步研究2D空间卷积和1D时间池化的组合策略.冯宁等^［15］扩展2D卷积操作为3D卷积，并实现了双流的I3D（膨胀3D卷积网络，Inflated3D ConvNet）.马腾飞^［16］为了完成对人体行为在时空特征上的提取，设计一种双流池化网络，进一步提升特征的表达能力.张玉康等^［17］提出一种同步的外观与关系模块SMART，并通过堆叠该模型完成行为时空特征的学习.邹国锋等^［18］设计一种多Fiber网络，每个Fiber使用轻量级的卷积，行为识别的运行速度有较大提升.

上述多种方法或模型在行为特征的提取过程中，没有考虑不同特征在时空序列中的不同特性，本文认为这些特征能更好地约束时空序列中的特征提取.因此，受这些前期研究的启发，本文使用基于动态骨架序列建立的ST⁃GCN模型通过边云协同计算完成视频图像中的行为识别任务，并通过仿真实验验证了本文所提方法的有效性.

2 边云协同计算流程

本文提出的对监控图像中的行为识别机制如图1所示，该机制的整体架构由监控设备端、边缘节点计算端、云服务器端三个部分组成.每个部分实现的具体功能如下：

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 边云协同计算下的行为识别机制

Fig.1 Behavior recognition mechanism under edge⁃cloud collaborative computing

（1）监控设备端：执行视频图像的收集任务，将收集到的视频图像数据上传至与其连接的边缘节点 $N_{0}$ .

（2）边缘节点端：各个边缘节点通过互联网Internet建立连接，在执行计算任务时相互独立，边缘节点 $N_{0}$ 对视频图像进行相似帧的去除，并在种子帧中利用上海交通大学提出的开源骨架关节点提取算法alphapose对帧内部的人体进行姿态估计.将提取的人体骨架数据传输至与之相邻的边缘节点 $N_{1} ~ N_{m}$ ，节点 $N_{1} ~ N_{m}$ 利用ST⁃GCN模型对骨架序列进行多层次表示，构造无向时空图 $G = (V, E)$ .

本文设计的行为识别机制包括边云协同下的训练和识别两个步骤.首先，边缘节点 $N_{0}$ 将提取的骨架特征上传至云端服务器，云端服务器使用这些特征对ST⁃GCN模型进行训练，边缘节点 $N_{1} ~ N_{m}$ 接收云端服务器下发的模型.进入识别流程后，边缘节点 $N_{1} ~ N_{m}$ 在训练好的模型中输入骨架序列，得到识别结果后将其传输至云端服务器进行融合.识别流程中边缘节点的骨架序列不上传至云端服务器，因而可以降低网络传输量，减缓网络堵塞现象.边缘节点上的计算任务在执行时彼此独立，互不干扰，增加了实现此机制的容错性.由于增加节点能提升识别准确率，因此，在计算资源充足的情况下，可适当增加边缘节点的数量，在提升准确率的同时又可实现计算资源的动态调度^［19］.

（3）云端服务器：在训练流程中，云端服务器接收边缘节点 $N_{0}$ 上传的特征，采用这些特征对ST⁃GCN模型进行训练，然后将训练好的模型下发至各个边缘节点.在识别流程中，云端服务器将边缘节点 $N_{1} ~ N_{m}$ 上传的识别结果进行融合决策，完成视频图像中行为类别的判定^［20］.识别流程的计算任务分由多个边缘节点共同完成，充分发挥边缘节点计算能力的同时又降低了云端服务器的计算压力.

3 行为识别机制

3.1　相似帧的去除及骨架序列图的构建

本节介绍边缘节点 $N_{0}$ 对监控视频产生的海量相似帧进行检测去除以及构建骨架序列时空图.在不考虑Alpha的情况下，视频图像有三个维度，即低频、中频、高频.对视频图像进行降维处理时，可以发现，图像蕴含的大部分信息都是低频的，如人体的胳膊、腿及躯干一直存在，只是在动作上有所变化^［21］.高频信息是图像中相对静止的部分，如图像的背景、人体的眼睛和嘴巴等细节.其中，低频域信息决定了视频图像的大体结构，高频域信息完善了视频图像中的细节.因此，首先将视频图像进行缩放且只保留亮度信息，即可有效地移除视频图像的细节，仅展示了图像的低频部分.

计算图片相似度是通过对比图片的频域信息来实现的.在实际实现中，首先把获取的视频图片从RGB转换为YCbCr格式，只提取其中的Y参与计算，实现降维，再把视频图像缩放为 $32 \times 32$ 的实数矩阵.为了使图像中的行为特性更加突出且易处理，使用二维离散余弦变换（DCT）将图片分解为频率聚集和阶梯状.二维离散余弦变换的正变换公式如下：

F (u, v) = \frac{2}{\sqrt[]{M N}} \sum_{x = 0}^{M - 1} c o s \frac{(2 x + 1) u π}{2 M} \{\sum_{y = 0}^{N - 1} f (x, y) c o s \frac{(2 x + 1) v π}{2 N}\}

（1）

其中， $f (x, y)$ 为 $M \times N$ 的数字图像矩阵， $x = 0,1, 2, \dots, M - 1, y = 0,1, 2, \dots, N - 1$ ； $F (u, v)$ 是经计算后得到的变换域矩阵， $u, v = 0,1, 2, \dots, N - 1$ .结果是 $32 \times 32$ 的矩阵，由此计算两张图片的相似性.

视频图像应用二维离散余弦正变换得到的 $32 \times 32$ 的矩阵，左上部分是低频信息，右下部分是高频信息.为了呈现图片中的低频信息，只保留左上部分 $8 \times 8$ 的矩阵，从频域矩阵中提取 $8 \times 8$ 低频区域的参数.计算DCT的均值D，设置0或1的64位Hash值S，对二者进行比较，如果 $S > D$ 记为1，如果 $S < D$ 记为0，将1，0按位存储即可得到一个图片指纹.根据每张图像的哈希值S计算其汉明距离 $α$ ，按照以往监控数据的大量测试可知，相似系数可以设置为5，当 $α < 5$ 时判定两张图像是相似的， $α > 5$ 时判定两张图像不相似.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 视频图像相似度的比较结果

Fig.2 The comparison of video images' similarity

去除相似帧后，在种子帧中对提取的骨架进行多层次表示.骨架序列是由人体骨骼关键节点的二维或三维坐标表示.先前的研究仅使用所有关节点相连而成的单一特征向量对人类动作进行识别，在此基础上，本文利用时空卷积图对骨架序列进行多层次表示.在具有N个节点和T帧的骨骼点序列上构造一个无向时空图 $G = (V, E)$ ，该序列具有体内连接和帧间连接，其中节点矩阵集合 $V = \{V_{t_{i}}| t = 1, \dots, T, i = 1, \dots, N\}$ 包括骨骼序列中所有的关节点^［22］.作为ST⁃GCN的输入，节点 $F (v_{t_{i}})$ 的特征向量是由第t帧第i节点的坐标向量和置信度组成.边集合E中包含两个集合，其中一个子集包含帧内相邻骨骼点的连接边， $E_{S} = \{v_{t i} v_{t j}| (i, j) \in H\}$ ，另一个子集包含帧间相同骨骼点的连接边， $E_{F} = \{v_{t_{i}} v_{{(t + 1)}_{i}}\}$ .

在骨架序列上构造时空图分两个步骤.首先，利用上海交通大学提出的开源骨架关节点提取算法alphapose对视频帧内部的人体进行姿态估计，将所有关节根据人体结构的连通性进行自然连接，然后用帧与帧之间对应相同的关节点之间的连接表示关节点的时序关系^［23］.对姿态关节点数据进行滤波处理，去除缺失值较多的坐标矩阵，同时补足缺失值较少的坐标矩阵，将所有关节点的位置坐标归一化，坐标矩阵V由归一化后的关节点位置坐标构成.这样设置的连接是自然定义的，无需手动分配设计，使得此模型能够处理具有不同关节数或关节连接数的数据集^［24］.例如，在Kinetics数据集上使用来自alphapose的2D姿态估计结果作为模型的输入，产生18个关节点；而在NTU⁃RGB+D 120数据集上使用3D骨架作为模型的输入，产生25个关节点.ST⁃GCN模型在关节点数不同的情况下均运行良好，并保持相同的优越性能.

3.2　时空图卷积神经网络模型

单一帧内的图CNN模型：在t时刻的单帧内，有N个关键点 $R_{t}$ ，点间连接的边 $E_{S} (t) = \{r_{t_{i}} r_{t_{j}}| t = T, (i, j) \in H\}$ .按照2D图像或特征图的卷积运算的定义来看，输入的边会被视为2D网格，卷积操作输出的特征图也是一个2D网格.当选定合适的步长时，输出的特征图与输入图像的尺寸保持一致.下述讨论建立上述基础上，设一个 $K \times K$ 的卷积核，输入图像为 $f_{i n}$ ，通道数为c.单个通道在位置x的输出：

f_{o u t} (x) = \sum_{h = 1}^{K} \sum_{w = 1}^{K} f_{i n} (p (x, h, w)) \cdot w (h, w)

（2）

其中，p为关于位置x、邻域h以及权重的样本函数.在图像卷积中， $p (x, h, w) = x + p^{'} (h, w)$ ；权重函数 $w : Z^{2} \to R^{c}$ 表示实空间中的c维权向量，用以计算c维样本中输入特征向量的内积.权重因变量的值与输入x的位置无关，因此，输入图像涉及的滤波器权重可以共用.图像域的标准卷积是通过对 $p (x)$ 中的矩形网格进行编码来实现的^［25］.将上述公式的卷积操作应用到空间图 $V_{t}$ 的输入特征中.其中输入的特征图 $f_{i n}^{t} : V_{t} \to R^{c}$ 为在图像中的任一节点.为使模型可应用于时空图，先将采样函数与权重函数进行优化.

视频图像中样本函数中的 $p (h, w)$ 为中心像素x的邻域像素.在时空图中，可以类似地定义一个节点的邻域集 $B (v_{t i}) = \{v_{t j}| d (v_{t j}, v_{t i}) \leq D\}$ ，D=1，即取距离为1的邻域集，其中， $d (v_{t j}, v_{t i})$ 表示从 $v_{t j}$ 到 $v_{t i}$ 的最短路径.因此，采样函数 $p : B (v_{t i}) \to V$ 可以表示为：

p (v_{t_{i}}, v_{t_{j}}) = v_{t_{j}}

（3）

与样本函数相比，权值函数的定义难度更大.二维卷积中，中心位置周围自然存在一个刚性网格，所以邻域像素有固定的空间顺序，其根据空间顺序索引 $(c, K, K)$ 的张量来执行权重函数.对于上述排布不规律的一般图，Wang et al^［26］提出顺序的定义，由根节点周围的邻域图进行标记的过程决定，由此来构建权重函数.任一邻域节点不被单独分配标签，而是将某个关节点 $V_{t_{i}}$ 的邻域集 $B (V_{t_{i}})$ 划分为固定数量的K个子集，每个子集都分配有数字标签，映射关系为 $l_{t_{i}} : B (v_{t_{i}}) \to$

$\{0, \dots, K - 1\}$ .因此，权重函数 $w (v_{t_{i}}, v_{t_{j}}) :$

$B (v_{t_{i}}) \to R^{c}$ 可通过索引 $(c, K)$ 维度的向量来实现：

w (v_{t_{i}}, v_{t_{j}}) = w^{'} (l_{t_{i}} (v_{t_{j}}))

（4）

基于样本函数与权重函数的重新定义，现将式（1）应用到图卷积上：

f_{o u t} (v_{t_{i}}) = \sum_{v_{t_{j}} \in B (v_{t_{i}})} \frac{1}{Z_{t_{i}} (v_{t_{j}})} f_{i n} (p (v_{t_{i}}, v_{t_{j}})) \cdot w (v_{t_{i}}, v_{t_{j}})

（5）

其中，正则化项 $Z_{t_{i}} (v_{t_{j}}) = |\{v_{t_{k}}| l_{t_{i}} (v_{t_{k}}) = l_{t_{i}} (v_{t_{j}})\}|$ 即为相应子集的基数，此项将不同子集对输出的贡献进行均衡.从式（2）至式（4）可以得出：

f_{o u t} (v_{t_{i}}) = \sum_{v_{t_{j}} \in B (v_{t_{i}})} \frac{1}{Z_{t_{i}} (v_{t_{j}})} f_{i n} (v_{t_{j}}) \cdot w (l_{t_{i}} (v_{t_{j}}))

（6）

在将输入图像视为常规2D网格的情况下，式（6）可以作为标准2D卷积进行运算.为了应用于 $3 \times 3$ 的卷积运算，在以像素为中心的 $3 \times 3$ 网格的邻域集中，将其分割成九个子集，每个子集包含一个像素^［27］.

定义空间图CNN后，开始在空间和时间上对骨架序列进行动态建模.空间图是在相邻帧间连接相同的关节点形成的，现将空间图扩展到时空图，同时将邻域集扩展为包含时间连接的关节点的集合：

B (v_{t_{j}}) = \{v_{q j} |d (v_{t j}, v_{t i}) \leq K, |q - t| \leq ⌊Γ / 2⌋\}

（7）

其中，参数 $Γ$ 表示时间核的大小，它控制邻域图间的时间范围.为了完成时空图上的卷积运算，仍然需要样本函数和权重函数及标签图 $l_{S T}$ ，其中样本函数与空间图中的样本函数相同.因为时间轴是有序的，因此直接针对以 $v_{t_{i}}$ 为根的时空邻域修改标签图的映射函数为：

l_{S T} (v_{q_{j}}) = l_{t_{i}} (v_{t_{j}}) + (q - t + ⌊Γ / 2⌋) \times K

（8）

其中， $l_{t_{i}} (v_{t_{j}})$ 是 $v_{t_{i}}$ 单帧的标签图.至此，在时空图上有了明确的卷积运算.

明确了时空图卷积运算的表示后，设计合适的分区策略以实现标签图也尤为重要.本文探索了三种分区策略，因为可以使用式（8）将其自然地扩展到时空域，因此现在只讨论单帧情况.

统一标签：最简单直接的策略是将整个邻域集集中于一个分区.其中，任一相邻节点上的特征向量都具有相同权重向量的内积.这一策略明显的缺陷是，针对单帧图像，使用此策略等价于计算所有相邻节点的权重向量和平均特征向量之间的内积^［28］，表示为 $K = 1, l_{t_{i}} (v_{t_{j}}) = 0, \forall i, j \in V$ .

距离划分：另一个分区策略是依照各节点到根节点 $v_{t_{i}}$ 的距离 $d (\cdot, v_{t_{i}})$ 来划分邻域集.设置 $D = 1$ ，邻域集被分为两个子集， $d = 0$ 时表示根节点本身， $d = 1$ 时，该子集中存放与根节点相邻的节点.因此，不同的距离对应不同的权重向量，使其能对局部微分特性（例如关节之间的相对移动）进行建模，表示为 $K = 1,$ $l_{t_{i}} (v_{t_{j}}) = d (v_{t_{j}}, v_{t_{i}})$ .

空间配置：由于人体骨骼在空间上是局域化的，在划分过程中可以利用此特定的空间配置.身体部位的运动大致可分为同心运动和偏心运动，据此将某一节点的邻域集划分为三个子集：（1）根节点本身；（2）向心组：比根节点更靠近骨架重心的相邻节点；（3）离心组.其中，单帧骨架图中所有关节点的平均坐标为整体骨架的重心.表示为：

l_{t_{i}} (v_{t_{j}}) = \{\begin{matrix} 0 i f r_{j} = r_{i} \\ 1 i f r_{j} < r_{i} \\ 2 i f r_{j} > r_{i} \end{matrix}

（9）

其中， $r_{i}$ 表示视频图像所有帧中整体骨架重心到各关节点 $i$ 的平均距离.

图3为Mahjoub and Atri^［29］提出的三种可视化分区策略.图3a为输入的骨架示例框架，人体关节点用蓝点标出， $D = 1$ 滤波器的接收场用红色虚线框出；图3b为统一标签策略，将邻域集中的所有节点用绿点标出；图3c是距离划分策略，两个子集是根节点本身（绿点标出）和其相邻节点（蓝点标出）；图3d是空间配置策略，黑色十字所标点为整体骨架的重心，按照各关节点到骨架重心与根节点（绿色）的距离来标记节点，与重心距离较短的为向心关节点（蓝色），离心节点（黄色）与重心的距离则比根节点长.对基于骨架的行为识别提出的分区策略进行模拟仿真，预计更高级的分区策略将带来更好的建模能力和识别性能.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 输入的骨架示例框架(a)和三种分区策略(b~d)

Fig.3 Input skeleton example graph frame (a) and three partition strategies (b~d)

采用与胡正平等^［30］类似的图卷积实现方法，单视频帧内关节点的体内连接由邻接矩阵 $A$ 和单位矩阵 $I$ 表示.在处理单帧视频图像时使用第一个分区策略的输出结果由下式计算得出：

f_{o u t} = Λ^{- \frac{1}{2}} (A + I) Λ^{- \frac{1}{2}} f_{i n} W

（10）

其中， $Λ^{i i} = \sum_{j} (A^{i j} + I^{i j})$ ，多个输出通道权重向量相加得到权重矩阵W，在时空域中将输入的特征图表示为 $(C, V, T)$ 维度的张量，执行 $1 \times Γ$ 标准的二维卷积，将归一化邻接矩阵 $Λ^{- \frac{1}{2}} (A + I) Λ^{- \frac{1}{2}}$ 与结果张量相乘.

对于有多个子集的分区策略，即距离划分和空间配置分割，同样利用上述的实现方式，其中的邻接矩阵被分解为几个矩阵 $A_{j}$ ， $A + I = \sum_{j} A_{j}$ .例如，在距离划分策略中， $A_{0} = I, A_{1} = A$ ，则式（10）转换为式（11）：

f_{o u t} = \sum_{j} Λ_{j}^{- \frac{1}{2}} A_{j} Λ_{j}^{- \frac{1}{2}} f_{i n} W_{j}

（11）

其中， $Λ_{j}^{i i} = \sum_{k} (A_{j}^{i k}) + α$ ，设 $α = 0.001$ 以避免 $A_{j}$ 空行.对于每个邻接矩阵都附有一个可学习的权重矩阵M，分别用 $(A + I) \otimes M$ 和 $A_{j} \otimes M$ 代替式（10）的矩阵 $A + I$ 和式（11）中的 $A_{j}$ .⊗表示两个矩阵之间的元素乘积.掩码M被初始化为全1矩阵^［31］.

3.3　云端服务器融合结果

将边缘节点提取的时空骨架特征上传至云端，云端将上述模型训练好后部署至各个边缘节点，边缘节点识别后将结果上传至云端，云端服务器进行融合得出最终行为类别.最终的融合结果为：

y_{f u s i o n} = \underset{i \in \{1,2, \dots, C\}}{a r g m a x} {[\sum_{d \in D} [l_{t_{i}} (v_{t_{j}})]]}^{(i)}

（12）

其中， $y$ 是行为标签， $C$ 是带识别的行为种类数.对边缘节点的所有识别结果取平均值进行结果融合.

4 实验分析

本节搭建边云协同的计算环境，确定评价指标，通过仿真实验验证边云协同计算下的行为识别机制的系统效用.

4.1　实验配置

4.1.1　实验环境

实验系统中，边缘端使用六台PC机作为计算平台，一台机架式服务器作为云端服务器.为模拟边缘节点运算能力在实际生活中会受到约束的情况，通过VMWare虚拟机限制其计算、内存及存储资源.边缘节点与云端服务器的硬件参数如表1所示.

表1 边缘节点与云端服务器硬件参数

Table 1 Edge node and cloud server hardware parameters

平台

硬件

计算资源

内存

硬盘

边缘

节点

PC机

CPU：i5⁃8400

GPU：RTX2060

16 GB

512 GB

云端

服务器

机架式服务器

CPU：Xeno⁃4116

GPU：Tesla 100

128 GB

1 TB

新窗口打开| 下载CSV

4.1.2　数据集

NTU⁃RGB+D 120数据集^［32］.该数据集具有的骨架数据样本最多，包含114480个样本、120类行为.在拍摄高度、距离不同的情况下，增加拍摄视角到155个以及被测对象到106人，行为内容覆盖广泛，能够正确反映实际应用场景中的行为类别.数据集提供了Cross⁃Subject和Cross⁃Setup两种验证标准.在Cross⁃Subject验证标准中，训练集和测试集各包含53人的行为样本.在Cross⁃Setup验证标准中，对训练集进行偶数编号，对测试集进行奇数标号.

Kinetics数据集^［33］.该数据集包含从YouTube检索到的400个人体动作类，任一动作至少有300个约10 s的视频片段.这些动作涵盖广泛的类别，包括人与物的互动（如演奏乐器）、人与人的互动（如握手）.此数据集提供不含骨架数据的原始视频集，根据数据集作者的建议，通过top⁃1和top⁃5分类准确性评估识别性能，数据集提供了240000个视频训练集和20000的验证集.

4.2　边云协同计算优势验证

将本文提出的边云协同计算下的行为识别机制的效用表现与以下方案进行对比.效用表现包括网络传输量、任务总费时、设备能耗性三个方面.

（1）单边缘计算下的行为识别策略：将监控设备采集的视频导入PC机，PC机使用PyCharm作为运行平台完成识别任务^［34］.

（2）单云端计算下的行为识别策略：将监控设备中采集的视频上传至云端服务器，在云端服务器完成模型训练及人体行为识别任务.

网络传输量是从边缘端到云端传输数据的总量，三种方案下网络传输量的对比实验结果如图4所示.单边缘计算时所有任务都在边缘端完成计算，无网络传输量；单云端计算时假设上传的视频大小相同，网络传输量随着任务数的增加呈线性上升，任务数越多，网络传输量越大；边云协同计算时执行识别任务前边缘端需将提取出的骨架特征上传至云端，云端利用这些特征对模型进行训练后将其下发至边缘节点，因此完成第一个任务的网络传输量较大，而在执行后续识别任务时只需上传边缘端的识别结果，网络传输量增加变缓，任务数越多，边云协同计算的优势越加明显.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 相同任务数下三个方案的网络传输量对比

Fig.4 The network transmission volume of the three schemes with the same number of tasks

能耗性为执行计算任务时各个设备所使用CPU、内存和硬盘占比的平均值，三种方案下设备能耗性的对比实验结果如图5所示.边云协同的能耗性处于单边缘与单云端两者之间，在保证识别任务完成的情况下充分利用了云端的计算资源与边缘端的存储能力.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 相同任务数下三个方案的能耗性对比

Fig.5 The energy consuming of the three schemes with the same number of tasks

任务总费时为完成数据传输与识别任务的总时间，三种方案下任务总费时的对比实验结果如图6所示.单边缘计算下，受节点内存及CPU性能的限制，完成单个识别任务的时间较长，且随着任务数的增加，完成任务的时间越来越长，达到计算能力上限时，边缘端识别任务执行中断，任务无法完成，耗时为0；单云端计算下，任务总费时随着任务数的增加而增加；边云协同计算下，执行第一个任务前云端模型的训练与部署花费的时间较多，因此完成第一个任务的总费时要比单云端多，但随着任务数的增加，执行识别任务的总耗时比其余两种方案都短，充分验证了边云协同优越的性能.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 相同任务数下三个方案的总费时对比

Fig.6 The totle time consumption of the three schemes with the same number of tasks

以分辨率为1280×720、时间长度为2 s、帧率20 fps的视频为例，其码率典型值为1.5 Mbits.采用单边缘计算时，网络传输量为0，但完成任务的总费时和能耗性随着任务数的增多出现大幅增加，且任务数增加到四个时，出现了CPU负载过大无法完成识别任务的情况.采用单云端计算时需上传该段视频，数据量约为 $1.5 M b i t s \times 2 s = 3 M b$ ，任务数增加即视频上传量较大时，网络传输极易出现拥堵.采用本文的边云协同计算时无需将视频上传至云端，只需将每个边缘节点的识别结果上传，数据量约为 $10 \times 50 \times 16 b = 8 k b$ （10个节点共运行10个模型，对50类行为进行识别，边缘节点识别结果用16位单精度浮点数表示），上传视频图像文件的网络传输量明显有所减少^［35］.综合多方面因素，边云协同计算在完成人体行为识别任务中表现了优越性能.

4.3　三种分区策略下ST⁃GCN模型识别准确率比较

基于边云协同计算对三种分区策略下的ST⁃GCN模型识别准确率进行验证.由于边缘节点 $N_{1} ~ N_{m}$ 执行识别任务时彼此独立，因此实验中可通过调整边缘节点数量来观测识别准确率的变化.采用不同节点数量及不同分区策略的模型识别准确率如图7所示.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 边缘节点数量对识别准确率的影响

Fig.7 The influence of the number of edge nodes on the accuracy of recognition

三种分区策略下，依次增加边缘节点数量直至采用全部边缘节点时，识别准确率随之稳定提升，其中统一标签这一分区策略对于骨架序列分类，在计算过程中可能会丢失局部微分特性，表现为识别准确率偏低.和距离划分相比，空间配置分区策略下的模型识别准确率更高.因此为提高应用价值，应选用空间配置策略下的ST⁃GCN模型对监控视频中的人体行为进行识别，并且在实际场景中应当充分利用边缘资源进行计算任务.

4.4　云端融合效果验证

使用两种数据集验证云端服务器融合多个边缘节点识别结果的有效性.首先在边缘节点 $N_{0}$ 完成相似帧去除及姿态估计，然后在节点 $N_{1} ~ N_{m}$ 下完成行为识别，并将识别结果上传至云端进行融合.表2和表3分别为NTU⁃RGB+D 120，Kinetics数据集上单边缘、单云端及云端融合下行为识别准确率的实验结果.

表2 NTU⁃RGB+D 120数据集上边缘节点及云端融合识别的准确率

Table 2 Accuracy rate of edge node and cloud fusion recognition on NTU⁃RGB+D 120 dataset

	Cross⁃Subject	Cross⁃View
$N_{1}$	81.2%	87.1%
$N_{2}$	82.6%	88.0%
$N_{3}$	80.7%	86.9%
$N_{4}$	81.9%	87.4%
$N_{5}$	82.5%	87.7%
单云端	82.1%	87.9%
融合	83.9%	89.7%

新窗口打开| 下载CSV

表3 Kinetics数据集上边缘节点及云端融合识别的准确率

Table 2 Accuracy rate of edge node and cloud fusion recognition on Kinetics dataset

	top⁃1	top⁃5
$N_{1}$	83.4%	85.2%
$N_{2}$	75.4%	86.3%
$N_{3}$	82.1%	84.7%
$N_{4}$	80.9%	86.8%
$N_{5}$	81.7%	84.9%
单云端	82.6%	85.5%
融合	84.5%	88.2%

新窗口打开| 下载CSV

在Cross⁃Subject验证标准中，单云端识别准确率为82.1%，单边缘的识别准确率在80.7%~82.6%，平均81.7%；在云端服务器进行融合后的结果为83.9%，和所有边缘节点准确率的均值及单云端的识别准确率相比提升2.2%左右.在Cross⁃View验证标准中，单云端识别准确率为87.9%，单边缘的识别准确率在86.9%~88.0%，平均87.4%，在云端服务器进行融合后的结果为89.7%，和前两者相比提升约2.3%.根据以上结果可知，云端融合后的行为识别准确率可稳定提升2%以上.

在top⁃1验证标准中，单云端识别准确率为82.6%； $N_{2}$ 节点在计算过程中出现CPU过热、工作异常的现象，导致该节点识别准确率偏低，其余单边缘节点的识别准确率在80.9%~83.4%，平均82.0%；在云端服务器进行融合后的结果为84.5%，和前两者相比提升2.5%左右.在top⁃5验证标准中，单云端识别准确率为85.5%，单边缘的识别准确率在84.7%~86.8%，平均85.5%；在云端服务器进行融合后的结果为88.2%，和前两者相比准确率提升2.7%左右.根据以上结果可知，当某一边缘节点出现异常情况时云端融合仍能发挥良好性能，降低对异常结果对最终结果的影响，为边云协同计算提升了容错率.

综合上述实验，在单云端计算下，云端服务器完成识别任务的时间缩短、准确率有所提高，但集中上传视频图像容易造成网络拥堵，上传的视频图像的存储也给云端服务器带来一定压力，且由于视频帧文件在传输过程中会出现少帧及漏帧现象，在一定程度上对识别任务的准确率产生了影响.本文提出的边云协同计算方法在能耗性与单云端方法基本持平的情况下，不仅减少了网络传输量，缓和了云端服务器的存储压力，还提高了识别准确率，充分利用了边缘节点的计算能力.

5 结论

本文面向海量监控视频帧研究边云协同计算下的人体行为识别机制，首先设计边云协同计算框架，合理分配和充分利用边缘端和云端的计算资源，在边缘端对视频进行相似帧的去除，然后在种子帧中利用ST⁃GCN模型进行人体行为识别，最后云端对所有边缘节点的识别结果进行融合.通过实验评估分析，提出的边云协同计算下的行为识别机制在识别准确率有所提升的基础上，其网络传输量、设备能耗性、任务总费时等方面都优于单边缘和单云端方案，表现出优越的机制效用与性能.本文的时空图卷积神经网络模型可以捕捉动态骨架中的运动信息，对之前使用的RGB模型是一种补充，其灵活性也为将来的工作开辟了许多可能的方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Yan

S J

，Xiong

Y J

，Lin

D H

Spatial temporal graph convolutional networks for skeleton⁃based action recognition

2018，arXiv:.