融合标签嵌入和知识感知的多标签文本分类方法

图1 LEKA的模型框架

Fig.1 Model framework of LEKA

在文本数据预处理模块，文档文本和标签文本首先进行数据清洗，采用jieba分词对文本数据进行中文分词，分词后进行停用词过滤、纠错、同义词替换，再通过GloVe获得文本中每个单词的词嵌入（Word Embedding）表示，生成文档文本和标签文本的词向量表示，将文档文本词向量输入到LSTM层.知识感知模块通过引入外部知识图谱发现标签文本的相关知识，丰富标签的特征表示，核心步骤是通过实体链接技术选取与标签相关联的实体，将标签实体以及标签相关联的实体映射到对应空间，获得知识图谱嵌入.之后，标签词向量嵌入和知识图谱嵌入进行拼接，丰富原本标签文本中的语义，再输入下一LSTM层得到最终的标签表示矩阵.标签嵌入模块将标签文本向量表示和文档文本向量表示映射到同一空间学习，聚合运算后进行最大池化操作，通过空洞卷积提取细粒度特征，利用Softmax函数进行归一化生成注意力向量层，获得与任务目标有关的注意力权重，利用注意力权重获得每个标签对应的文本特征矩阵.最后，根据初始文档文本词嵌入和相应的文本特征矩阵对文本进行分类预测.

2.2　问题定义

定义 $P = \{p_{1}, p_{2}, \dots, p_{M}\}$ 为M个文档构成的数据集， $p_{i}$ 表示 $P$ 中的第i个文档， $p_{i} = \{w_{1}, w_{2}, \dots, w_{m}\}$ ，其中m为文档 $p_{i}$ 的长度， $w_{j}$ 表示该文档的第j个单词， $p_{i}$ 对应的分类标签由 $T = \{t_{1}, t_{2}, \dots, t_{l}\}$ 表示，其中l为标签的个数.多标签文本分类的最终目的是训练出一个分类器，其任务是为未标注的文档分配最准确的一个或多个标签.

2.3　词嵌入

词嵌入对于文本数据预处理和知识感知都是不可缺少的环节，其目标是将原始文本单词转化为向量形式，形成结构化数据.本文使用词嵌入模型GloVe获得文档文本中每个单词的词嵌入表示，再输入LSTM层得到文档的每个单词的隐表示，如图2所示.

图2

图2 词嵌入模块

Fig.2 Word embedding module

2.4　标签嵌入与知识感知

标签嵌入（Label Embedding）使用GloVe对标签进行嵌入编码来获得标签的向量形式.嵌入矩阵为 $W^{d |V|} \in R^{d \times |V|}$ ，将文档文本对应的标签全部转换为向量形式：

e_{y i} = W^{d |V|} y_{i}

(1)

其中，d是嵌入矩阵的维度，与词嵌入向量维度相同， $| V |$ 是标签的总数， $y_{i}$ 是每个标签的独热编码.最后得到标签的向量表示为 $e_{y} = \{e_{y_{1}}, e_{y_{2}}, \dots, e_{y_{l}}\}$ .

知识感知的核心是引入外部知识图谱，获取标签实体的外部知识，得到标签实体的学习嵌入，丰富标签实体的特征表示.首先，将标签实体通过实体链接技术与外部知识图谱中存在的实体相关联来消除歧义，将知识图谱中对应的实体映射到对应空间，通过这些关系链接选取实体一跳范围内的其他实体来构建知识子图^［26］.将知识子图也映射到空间里，知识子图中的全部实体以及它们之间的关系连接组成e的上下文信息：

c o n t e x t (e) = \{e_{i} |(e, r, e_{i}) \in G_{k} o r (e_{i}, r, e) \in G_{k}\}

(2)

其中，r表示实体e之间的关系， $G_{k}$ 表示知识图谱，通过上下文信息可以扩充实体的信息.上下文实体的嵌入按式（3）来转换：

\bar{e} = \frac{1}{|c o n t e x t (e)|} \sum_{e_{j} \in c o n t e x t (e)} e_{i}

(3)

其中， $e_{i}$ 表示通过知识图谱嵌入得到的上下文实体嵌入.式（3）得出的上下文嵌入指的是全部上下文实体嵌入的平均值，因此，扩充标签文本语义信息的关键在于实现知识图谱嵌入，本文使用TransE模型得到知识图谱的相关实体嵌入.用 $(h, r, t) \in T$ 表示知识图谱中的三元组，其中的关系r可以看作两个实体之间的平移向量：

l_{h} + l_{r} \approx l_{t}

(4)

其中， $l_{h}$ 为头实体向量， $l_{t}$ 为尾实体向量， $l_{r}$ 为关系向量，TransE模型把关系向量 $l_{r}$ 看作头实体向量 $l_{h}$ 和尾实体向量 $l_{t}$ 的平移.为了获得正确的三元组，TransE利用损失优化函数 $L_{T r a n s E}$ 使正确的三元组的距离小，错误的三元组距离大，如式（5）所示：

\begin{array}{l} L_{T r a n s E} = \\ \sum_{(h, l, t) \in S} \sum_{(h^{'}, l, t^{'}) \in S^{'}} {[ϒ + d (h + l, t) - d (h^{'} + l, t^{'})]}_{+} \end{array}

(5)

其中，S表示正确的三元组， $S^{'}$ 表示错误的三元组，d表示向量之间的距离， $ϒ$ 是一个常数，表示正负样本之间的间距， ${[x]}_{+}$ 表示 $m a x (0, x)$ .错误的三元组 $S^{'}$ 由正确的三元组 $S$ 里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成.经过不断优化训练和调参后获得完整的TransE模型，通过模型把知识图谱中所有实体和关系都转换成向量表示来完成知识图谱嵌入，最后将知识图谱嵌入和之前标签嵌入获取的标签向量进行拼接，扩展标签的语义信息.

将拼接后的标签嵌入矩阵输入下一LSTM层，获取标签之间的相关性，之后标签嵌入与词嵌入进行聚合计算：

G = (C^{T} V) \emptyset \hat{G}

(6)

其中， $C$ 表示标签嵌入矩阵； $V$ 表示词嵌入矩阵； $\emptyset$ 表示同位元素对应相除； $\hat{G}$ 表示 $K \times L$ 阶的归一化矩阵，K是标签总数，L是单词长度. $\hat{G}$ 中每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出，计算结果如图1的 $G$ .聚合运算后一般使用前馈神经网络层提取文本的特征，通过ReLU激活函数获得.然而利用ReLU函数存在一定的特征损失问题，本文用空洞卷积（D⁃Conv）替代前馈神经网络来提取文本的细粒度特征，进一步提取单词和标签之间的相关性.由于空洞卷积的网格效应会损失一些局部特征，本文采用多层不同扩张率的一维空洞卷积来捕获更全面的语义特征.在实验中，将扩张率设置为 $[1,2, 3]$ ，卷积核大小设置为3×3.标签嵌入如图3所示.

图3

图3 标签嵌入模块

Fig.3 Label embedding modul

2.5　标签注意力

不同的分类任务特征对输入文本的注意力权重的影响也会不同，因此需要根据不同的文本分类任务来调整注意力权重.本文将标签文本向量表示和文档文本向量表示映射到同一空间学习，通过标签嵌入的注意力机制获得的注意力向量表示文档文本中每个单词在不同分类任务中的重要程度.图3中的矩阵 $G$ 通过空洞卷积操作后得到 $G^{'}$ ，然后对 $G^{'}$ 的每一行进行最大池化操作得到向量 $y$ ：

y = m a x - p o l l i n g (G^{'})

(7)

在生成注意力向量层，向量 $y$ 通过Softmax函数得到文本向量 $V$ 的注意力向量 $β$ ：

β_{l} = \frac{e x p (x_{l})}{\sum_{n = 1}^{L} e x p (x_{n})}

(8)

最后，文本特征矩阵由注意力向量 $β$ 加权词嵌入计算得出：

z = \sum_{l} β_{l} v_{l}

(9)

其中， $β_{l}$ 表示第l个元素的Attention系数， $v_{l}$ 表示第l个单词的词嵌入.

2.6　分类预测

最后进行标签预测.本文的分类预测由两个全连接层和一个输出层组成的感知机实现，预测第i个标签出现的概率如式（10）所示：

y_{i} = σ (W_{2} f (W_{1} z))

(10)

其中， $W_{1}$ 为全连接层的参数， $W_{2}$ 是输出层的参数，函数 $f$ 为非线性激活函数， $z$ 为文本的最终表示.

2.7　损失函数

使用二元交叉熵损失作为损失函数，如式（11）所示：

L_{l o s s} = - \sum_{i = 1}^{N} \sum_{j = 1}^{c} y_{i j} l g ({\hat{y}}_{i j}) + (1 - y_{i j}) l g (1 - {\hat{y}}_{i j})

(11)

其中，N表示文档文本的总数，c表示标签的个数， ${\hat{y}}_{i j} \in [0, 1]$ ， $y_{i j} \in \{0, 1\}$ 分别表示第i个实例的第j个标签的预测标签和真实标签.

3 实验结果与分析

3.1　实验数据集

AAPD （Arxiv Academic Paper Dataset）：由Yang et al^［18］收集，来源于北京大学大数据研究院提供的公开英文数据集（2018年），共有55840篇与计算机科学相关的论文摘要和相对应的学科，涉及54个学科.

RCV1⁃V2 （Reuters Corpus Volume Ⅰ）：由Wang et al^［28］提供的公开英文数据集（2004年），来源于路透社收集的新闻报道，共有80多万条新闻报道，所有新闻故事都对应一个或多个主题，共涉及103个主题.

两个数据集的统计情况如表1所示.

表1 实验使用的数据集简介

Table 1 The description of datasets used in experiments

数据集

样本总数

标签总数

文本平均

标签数

文本平均

字数

AAPD

55840

2.41

163.42

RCV1⁃V2

804414

103

3.24

123.94

3.2　实验评价指标

采用Micro⁃F1作为分类算法性能的评价指标，Micro⁃Precision （P）和Micro⁃Recall （R）是实验结果分析的重要参考.Micro⁃Precision，Micro⁃Recall以及Micro⁃F1的定义如下：

P = \frac{\sum_{i = 1}^{C} T P_{i}}{\sum_{i = 1}^{C} (T P_{i} + F P_{i})}

(12)

R = \frac{\sum_{i = 1}^{C} T P_{i}}{\sum_{i = 1}^{C} (T P_{i} + F N_{i})}

(13)

F 1 = \frac{2 P_{i} \cdot R_{i}}{P + R}

(14)

其中，C表示分类的类别总数，i表示第i类标签， $T P_{i}$ 表示正确预测为第i类的样本个数， $F N_{i}$ 表示被错误预测为其他类的样本个数， $F P_{i}$ 表示非第i类的其他类样本被错误预测为第i类的样本个数.

3.3　对比算法

为了充分验证LEKA模型的有效性，选择BR，LP，LEAM，LSAN和LCFA多标签文本分类算法作为对比算法.

BR^［9］：是2004年Boutell et al^［9］提出的多标签文本分类模型，其基本思想是将多标签学习问题转化为每个标签独立的二元分类问题.

LP^［10］：其基本思想是将多标签学习问题转化为单标签多类分类问题，用一个多类分类器对所有独特的标签组合进行整合训练.

LEAM^［20］：将文本和标签置于同一空间进行联合嵌入，获得更具识别性的文本表征.

LSAN^［1］：是基于标签语义注意力学习特定于标签的文本表征.

LCFA^［19］：是基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法，其基本思想是一方面使用自注意力机制得到基于标签的全局信息，另一方面，先使用多层空洞卷积获得高层次的语义信息，融合后送入上层网络.

3.4　实验结果与分析

表2展示了在公开数据集AAPD上，本文模型LEKA与其他对比模型的实验结果，表中黑体字表示结果最优.由表可见，本文模型LEKA优于大多数现有方法，Micro⁃F1提高10%以上.具体的实验过程如图4所示.

表2 在AAPD数据集上本文模型LEKA和对比模型的实验结果

Table 2 Experimental results of LEKA and other models on AAPD dataset

模型方法	P	R	F1
LEKA	0.796	0.712	0.752
BR	0.644	0.648	0.646
LP	0.662	0.608	0.634
LEAM	0.765	0.596	0.670
LSAN	0.777	0.646	0.706
LCFA	0.783	0.695	0.726

图4

图4 LEKA算法和其他对比算法在AAPD数据集上的实验过程

Fig.4 Experimental process of our LEKA and other models on AAPD dataset

表3展示了RCV1⁃V2数据集上LEKA与其他对比模型的实验结果，表中黑体字表示结果最优.由表可见，LEKA与LCFA模型相比，Micro⁃F1提高了2.1%，精确率和召回率也有所提高，具体的实验过程如图5所示.证明LEKA算法在一定程度上提高了模型的性能.

表3 在RCV1⁃V2数据集上本文模型LEKA和对比模型的实验结果

Table 3 Experimental results of LEKA and other models on RCV1⁃V2 dataset

模型方法	P	R	F1
LEKA	0.912	0.873	0.892
BR	0.904	0.816	0.858
LP	0.896	0.824	0.858
LEAM	0.871	0.841	0.856
LSAN	0.913	0.841	0.875
LCFA	0.906	0.849	0.877

图5

图5 LEKA算法和其他对比算法在RCV1⁃V2数据集上的实验过程

Fig.5 Experimental process of ou LEKA and other models on RCV1⁃V2 dataset

3.5　消融实验分析

为了验证本文提出的融合知识感知和标签嵌入方法的有效性，将知识感知模块作为实验的消融变量，在AAPD数据集上进行消融实验，实验结果如表4所示，表中黑体字表示结果最优.LE⁃noKA表示将标签嵌入向量直接输入LSTM层，和文本词嵌入点乘，在标签嵌入模块得到最终的文本表示后通过分类层进行分类预测.

表4 在AAPD数据集上的消融实验结果

Table 4 Experimental results of ablation study on AAPD dataset

模型方法	P	R	F1
LE⁃noKA	0.885	0.831	0.857
LEKA	0.912	0.873	0.892

消融实验的结果证明本文提出的知识感知阶段对提升模型的整体性能起了很大的作用，其扩展标签的语义信息是重要的一部分.空洞卷积增强了提取文本特征的能力，进一步发现标签和词嵌入之间的相关性，有效提高了分类准确性.

3.6　不同频率标签下的性能

为了进一步分析LEKA的性能，计算不同标签频率下各标签模型对应的F1，如图6所示.由图可知，加入标签知识图谱嵌入后，本文模型LEKA在不频繁出现的标签（标签频率小于0.08）下的F1提高了9%~17%，说明LEKA能有效地解决多标签分类的尾标签问题.而对于频繁出现的标签（标签频率大于0.5），LEKA的F1也提高了4.7%，证明了扩充标签文本的语义对提高模型性能的有效性.

图6

图6 在AAPD数据集上标签F1得分

Fig.6 The label F1 score on the AAPD dataset

综上所述，对于那些低频标签，虽然可训练的样本实例较少，但通过知识图谱嵌入可以缓解低频标签引起的标签语义不足的问题，进而更好地将标签语义和文本信息关联起来，和其他模型相比对样本数据的数量依赖更低.

4 结论

本文提出一种融合标签嵌入和知识感知的多标签文本分类方法.通过知识感知的知识图谱嵌入获取标签相关的外部知识，增强标签的语义信息，进一步将标签的语义信息应用到多标签文本分类中.在标签嵌入过程中利用空洞卷积进一步增强全局和细粒度的特征提取，使标签注意力在分类预测发挥更好的作用，以获取更准确的文本表示.在两个公开数据集上的实验结果表明，本文提出的方法能更好地捕获标签和文档文本之间的相关性，学习到增强的标签注意力，提升了模型的预测性能.

未来将在多标签文本分类任务中考虑标签之间的共现关系以及在不同粒度上的注意力机制，获取更丰富的基于标签的文本表示，从而高效、准确地预测标签.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

肖琳，陈博理，黄鑫，等.

基于标签语义注意力的多标签文本分类

软件学报，2020，31(4)：1079-1089.

[本文引用: 3]

Xiao

， Chen

B L

， Huang

，et al.

Multi⁃label text classification method based on label semantic information

Journal of Software，2020，31(4)：1079-1089.

[本文引用: 3]

[2]

Kim

Convolutional neural networks for sentence classification

∥Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha，Qatar：Association for Computational Linguistics，2014：1746-1751.

[3]

Gopal

， Yang

Y M

Multilabel classification with meta⁃level features

∥Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Geneva，Switzerland：ACM，2010：315-322.

[4]

Myagmar

， Li

， Kimura

Cross⁃domain sentiment classification with bidirectional contextualized trans⁃former language models

IEEE Access，2019(7)：163219-163230.

[5]

Tang

D Y

， Qin

， Liu

Document modeling with gated recurrent neural network for sentiment classification

∥Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon，Portugal：Association for Computational Linguistics，2015：1422-1432.

[6]

Guo

， Jin

， Yu

R Y

，et al.

Multi⁃label classification methods for green computing and application for mobile medical recommendations

IEEE Access，2016(4)：3201-3209.

[7]

徐月梅，樊祖薇，曹晗.

基于标签嵌入注意力机制的多任务文本分类模型

数据分析与知识发现，2022，6(2-3)：105-116.

Y M

， Fan

Z W

， Cao

A multi-task text classification model based on label embedding of attention mechanism

Data Analysis and Knowledge Discovery，2022，6(2-3)：105-116.

[8]

王鑫，邹磊，王朝坤，等.

知识图谱数据管理研究综述

软件学报，2019，30(7)：2139-2174.

Wang

， Zou

， Wang

C K

，et al.

Research on knowledge graph data management：A survey

Journal of Software，2019，30(7)：2139-2174.

[9]

Boutell

M R

， Luo

J B

， Shen

X P

，et al.

Learning multi⁃label scene classification

Pattern recognition，2004，37(9)：1757-1771.

[本文引用: 3]

[10]

Tsoumakas

， Katakis

Multi⁃label classification：An overview

International Journal of Data Warehousing and Mining，2007，3(3)：1-13.

[11]

Read

， Pfahringer

， Holmes

，et al.

Classifier chains for multi⁃label classification

Machine Learning，2011，85(3)：333-359.

[12]

Wang

J R

， Feng

， Sun

，et al.

Simplified constraints rank⁃SVM for multi⁃label classification

∥The 6^th Chinese Conference on Pattern Recognition. Changsha，China：Springer，2014：229-236.

[13]

Clare

， King

R D

Knowledge discovery in multi⁃label phenotype data

∥The 5^th European Conference on Principles of Data Mining and Knowledge Discovery. Freiburg，Germany：Springer，2001：42-53.

[14]

Zhang

M L

， Zhou

Z H

ML⁃KNN：A lazy learning approach to multi⁃label learning

Pattern Recognition，2007，40(7)：2038-2048.

[15]

Kalchbrenner

， Grefenstette

， Blunsom

A convolutional neural network for modelling sentences

∥Proceedings of the 52^nd Annual Meeting of the Association for Computational Linguistics. Baltimore，MD，USA：ACL，2014：655-665.

[16]

Wang

， Yang

， Mao

J H

，et al.

CNN⁃RNN：A unified framework for multi⁃label image classifi⁃cation

∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，NV，USA：IEEE，2016：2285-2294.

[17]

Socher

， Lin

C C Y

， Ng

A Y

，et al.

parsing natural scenes and natural language with recursive neural networks

∥Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue，WA，USA：Omnipress，2011：129-136.

[18]

Yang

P C

， Sun

， Li

，et al.

SGM：Sequence generation model for multi⁃label classification

∥Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe，NM，USA：Association for Computational Linguistics，2018：3915-3926.

[19]

邬鑫珂，孙俊，李志华.

采用标签组合与融合注意力的多标签文本分类

计算机工程与应用，http://kns.cnki.net/kcms/detail/11.2127.TP.20220117.1920.015.html，2022-01-18.

X K

， Sun

， Li

Z H

Multi⁃label text classification basedon label combination and fusion of attentions

Computer Engineering and Applications，http://kns.cnki.net/kcms/detail/11.2127.TP.20220117.1920.015.html，2022-01-18.

[20]

Wang

G Y

， Li

C Y

， Wang

W L

，et al.

Joint embedding of words and labels for text classification

∥Proceedings of the 56^th Annual Meeting of the Association for Computational Linguistics. Melbourne，Australia：ACL，2018：2321-2331.

[21]

Mahdisoltani

， Biega

， Suchanek

Yago3：A knowledge base from multilingual wikipedias

∥The 7^th Biennial Conference on Innovative Data Systems Research. Asilomar，CA，USA：www.cidrdb.org，https:∥www.cidrdb.org/cidr2015/Papers/CIDR15_ Paper1.pdf，2015.

[22]

Bollacker

， Evans

， Paritosh

，et al.

Freebase：A collaboratively created graph database for structuring human knowledge

∥Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver，Canada：ACM，2008：1247-1250.

[23]

W T

， Li

H S

， Wang

H X

，et al.

Probase：A probabilistic taxonomy for text understanding

∥Proceedings of 2012 ACM SIGMOD International Conference on Management of Data. Scottsdale，AZ，USA：ACM，2012：481-492.

[24]

Mikolov

， Sutskever

， Chen

，et al.

Distributed representations of words and phrases and their compositionality

∥Proceedings of the 26th Inter⁃national Conference on Neural Information Processing Systems. Lake Tahoe，NV，USA：Curran Associates Inc.，2013：3111-3119.

[25]

Wang

， Zhang

J W

， Feng

J L

，et al.

Knowledge graph embedding by translating on hyperplanes

∥Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City，Canada：AAAI Press，2014：1112-1119.

[26]

Lin

Y K

， Liu

Z Y

， Sun

M S

，et al.

Learning entity and relation embeddings for knowledge graph completion

∥Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin，TX，USA：AAAI Press，2015：2181-2187.

[27]

Xiao

， Huang

M L

， Zhu

X Y

TransG：A generative model for knowledge graph embedding

∥Proceedings of the 54^th Annual Meetings of the Association for Computational Linguistics. Berlin，Germany：ACL，2016：2316-2325.

[28]

Lewis

D D

， Yang

Y M

， Rose

T G

，et al.

Rcv1：A new benchmark collection for text categorization research

The Journal of Machine Learning Research，2004(5)：361-397.