南京大学学报(自然科学), 2023, 59(2): 273-281 doi: 10.13232/j.cnki.jnju.2023.02.010

融合标签嵌入和知识感知的多标签文本分类方法

冯海1, 马甲林,1, 许林杰1, 杨宇1, 谢乾1,2

1.淮阴工学院计算机与软件工程学院,淮安,223001

2.江苏卓易信息科技股份有限公司,无锡,214200

Multi⁃label text classification method combining label embedding and knowledge⁃aware

Feng Hai1, Ma Jialin,1, Xu Linjie1, Yang Yu1, Xie Qian1,2

1.Faculty of Computer and Software, Huaiyin institute of Technology, Huaian, 223001, China

2.Jiangsu Eazytec Company Limited, Wuxi, 214200, China

通讯作者: E⁃mail:majl@hyit.edu.cn

收稿日期: 2022-12-03  

基金资助: 国家自然科学基金.  61602202

Received: 2022-12-03  

摘要

多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法LEKA (Label Embedding and Knowledge⁃Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1⁃V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.

关键词: 多标签文本分类 ; 标签嵌入 ; 知识图谱 ; 注意力机制

Abstract

Multi⁃label text classification is one of the most important tasks in natural language processing. The label semantic information of the text is closely related to the document content of the text. However,traditional multi⁃label text classification methods have some problems,such as ignore the semantic information of the labels itself and insufficient semantic information of the labels. In response to the above problems,we propose a multi⁃label text classification method LEKA (Label Embedding and Knowledge⁃Aware). LEKA relies on the document text and multiple labels,obtains attention related to labels through label embedding,considers the semantic information of labels,the relationship between the labels and the content of the established document,and applies labels to text classification. In addition,to enhance the semantic information of the labels,the embedding of knowledge graph is used to introduced external aware knowledge,expanding the semantic information of label text. Compared with other classification models on AAPD and RCV1⁃V2 open data sets,excessive experimental results show that compared with the LCFA (Label Combination and Fusion of Attentions) model,the proposed method improves the F1 value by 3.5% and 2.1% respectively.

Keywords: multi⁃label text classification ; label embedding ; knowledge graph ; attention mechanism

PDF (779KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

冯海, 马甲林, 许林杰, 杨宇, 谢乾. 融合标签嵌入和知识感知的多标签文本分类方法. 南京大学学报(自然科学)[J], 2023, 59(2): 273-281 doi:10.13232/j.cnki.jnju.2023.02.010

Feng Hai, Ma Jialin, Xu Linjie, Yang Yu, Xie Qian. Multi⁃label text classification method combining label embedding and knowledge⁃aware. Journal of nanjing University[J], 2023, 59(2): 273-281 doi:10.13232/j.cnki.jnju.2023.02.010

随着信息化时代的到来,互联网高速发展,产生了数量巨大、种类繁多的数据,文本作为数据的载体之一有重要价值.如何处理这些海量的文本数据,选择有效的文本分类技术至关重要.

在传统的分类方法中,每个样本示例只属于一个类别标记,即单标记学习1.2014年Kim2提出TextCNN模型,将卷积神经网络(Convolutional Neural Networks,CNN)应用在文本分类领域中,取得了一定的效果.此后,越来越多的深度学习方法被应用于单标签文本分类任务,单标签文本分类技术逐渐成熟.但在实际文本分类任务中,许多对象具有多个标签,所以多标签文本分类逐渐受到研究者的广泛关注.

多标签文本分类(Multi⁃Class Text Classifica⁃tion,MCTC)是为文本文档分配一个或多个标签的文本分类任务,专注于文本的高级语义表示和标签相关性建模,有广泛的应用,如信息检索3、情感分析4、主题识别5、推荐系统6等.目前在多标签文本分类领域,主要有三个研究内容:(1)从文档中充分捕获有效的语义信息;(2)探究标签与文档之间的相关性,从文档中获取标签的文档表示;(3)探究标签之间的联系,因为在多标签文本分类中,大多数标签之间都有层次性.大多数研究者都是在完成第一个内容的前提下,重点对后两个内容进行探索7.尽管多标签文本分类的研究有一定进展,但依然有诸多问题,如把标签当成没有语义信息的标记,忽略标签本身的语义信息,标签的语义信息仅仅在最后的分类预测阶段起监督的作用;同时,大多数标签是几个字符长度的短文本,标签文本存在数据稀疏问题.

针对上述问题,本文提出一种融合标签嵌入和知识感知(Label Embedding and Knowledge⁃Aware,LEKA)的多标签文本分类方法,在利用标签嵌入的同时,将文本单词和类别标签在同维度语义空间进行学习嵌入,再通过知识图谱8嵌入对标签文本进行语义扩展,实现对标签的知识感知.最后,通过标签嵌入注意力使标签和文档文本进行语义交互,得到基于标签的文本表示,将标签应用到文本分类过程中.本文的主要贡献:

(1)通过知识图谱引入相关的实体信息,丰富标签的语义信息,缓解标签语义不足的问题.

(2)提出基于扩展后标签语义信息与文档交互的注意力机制,通过空洞卷积获取全局特征,从而计算更细粒度的标签注意力.

(3)在两个公开数据集上与几种主流方法进行了对比实验,实验结果表明,LEKA的效果优于其他方法.

1 相关理论

1.1 基于机器学习的传统分类算法

基于机器学习的传统分类算法主要分问题转换方法和算法适应方法.问题转换方法的思路是将多标签学习的任务转换为传统的一个或多个单标签学习的任务,学者们已经提出了许多单标签分类任务的算法.最典型的是Binary Relevance (BR)9,其基本思路是将多标签学习问题转化为每个标签独立的二元分类问题,但无法发现标签之间的依赖性,标签空间很大时还会导致计算效率不高,使预测效果下降.Label Powerset (LP)10算法的基本思路是将每个可能的标签组合都组合为一组新的标记,然后将多标签学习问题转化为单标签多类分类问题,但该方法可能会使标签空间和样本空间过大,而且在问题转化之后会出现样本不平衡的问题.Classifier Chain (CC)11分类器链是对BR算法的改进,其包含了标签之间的依赖性,可以避免存在的信息损失.CC也是一种二元关联方法,不同的是它将多标签学习问题转化为二元分类问题链,链上的所有节点都有一个单独的标记,依次对链上每个单独的标记构建一个分类器,每个后构建的分类器都建立在前一个标签的预测上,所以一旦前面的标签预测出现错误,该错误就会沿着链一直传递下去,造成标签预测结果错误.另外,CC也存在标签空间和样本空间过大的问题.

另一种是算法自适应,其基本思想是通过改进传统的单标签分类算法来解决多标签分类问题.单标签学习算法的改进已为多标签学习方法提供了理论和值得借鉴的实践经验.Ranking Support Vector Machine (Rank⁃SVM)12是建立在统计学习理论基础上的机器学习算法,直接对RNN (Recurrent Neural Network)的输出层进行改进,将经典的支持向量机推广到多标签学习中.Multi⁃Label Decision Tree (ML⁃DT)13采用决策树技术来处理多标签数据,利用熵的信息增益准则递归地构建决策树.Multi⁃Label k⁃Nearest Neighbor (ML⁃kNN)14直接对KNN的输出层进行改进,使用K近邻算法得到邻近的类别标记,再通过最大化后验概率得到位置示例的标记集合.

1.2 基于神经网络的深度学习算法

随着深度学习的飞速发展,多标签文本分类方法也由以机器学习为主的传统学习模型逐渐发展到基于神经网络的深度学习模型.2014年Kalchbrenner et al15提出动态卷积神经网络DCNN,首次将CNN应用到文本分类,取得了较好的结果,但无法发现标签之间的依赖性.CNN⁃RNN16利用RNN17来处理标签之间的依赖关系问题.Yang et al18提出序列生成模型(Sequence Generation Model,SGM),以Seq2Seq为基础,使用RNN作为编码器对指定文档文本进行编码,并使用新的RNN层作为解码器输出每个可能的标签序列.邬鑫珂等19提出基于标签组合和注意力的网络模型,通过对标签之间的互斥关系的建模来学习标签之间的依赖性.Wang et al20提出LEAM (Label⁃Embedding Attentive Model)网络模型,在相同维度语义空间下将文档文本和标签都转化为向量形式,基于这些向量表示来完成文本分类任务.肖琳等1提出LSAN (Label Semantic Attention Multi⁃label Classification)网络模型,通过标签语义注意力得到所有标签的文档表示,不仅考虑了标签的依赖性,而且得到了文档全部词的权重.

1.3 知识图谱嵌入

2012年谷歌正式提出知识图谱的概念,起初应用在搜索引擎,而今已发展得越来越成熟,其中规模较大的有YAGO21,Freebase22,Probase23等.知识图谱一般表示为G=E,R,T,其中E是实体集合,R是关系集合;由实体⁃关系⁃实体组成的三元组h,r,tT,其中h是头实体,t是尾实体,r是有向关系.知识图谱嵌入(Knowledge Graph Embedding,KGE)也称知识表示学习,其目标是将知识图谱中的每个实体eE表示为低维表示向量,而关系表示为在向量空间的运算.近年来,由于其简洁的模型和卓越的性能,知识图谱嵌入受到了学者的广泛关注.2013年Mikolov et al24提出一种基于表示学习的TransE模型,它是最经典的翻译模型,将实体和关系都表示为同一空间的向量形式.TransE有效地将语义信息作为学习知识表示的唯一特征,利用向量空间计算语义关系,极大地缓解了知识图谱中数据稀疏和传统表示学习方法计算效率低的问题,但在解决不同关系时效果不佳.2014年Wang et al25提出TransH模型,是对TransE模型的改进,将头、尾实体的嵌入向量映射到关系的超平面中,并允许实体在涉及不同关系时有不同的表示,解决了TransE模型存在的不足.2017年Lin et al26提出TransR模型,先将各个关系建模为一个投影矩阵Mr,使实体嵌入映射到对应的关系空间.随后,各种改进的知识图谱嵌入模型被相继提出,如TransD,TransM,TransG27等.

本文提出一种融合标签嵌入和知识感知的多标签分类方法LEKA,针对标签语义信息的不足,通过知识图谱嵌入来进行扩展,充分利用标签的语义信息.将词表示和标签表示嵌入联合空间中进行学习,通过空洞卷积学习到更丰富的与标签注意力,再将注意力加权到文本表示,从而获得更精准的文本表示,将其应用到文本分类中来提高多标签文本分类模型性能.

2 融合标签嵌入和知识感知的多标签文本分类方法

2.1 整体流程

本文提出的LEKA,模型结构如图1所示,其整体框架包括四个主要模块:文本数据预处理、知识感知、标签嵌入和分类预测.

图1

图1   LEKA的模型框架

Fig.1   Model framework of LEKA


在文本数据预处理模块,文档文本和标签文本首先进行数据清洗,采用jieba分词对文本数据进行中文分词,分词后进行停用词过滤、纠错、同义词替换,再通过GloVe获得文本中每个单词的词嵌入(Word Embedding)表示,生成文档文本和标签文本的词向量表示,将文档文本词向量输入到LSTM层.知识感知模块通过引入外部知识图谱发现标签文本的相关知识,丰富标签的特征表示,核心步骤是通过实体链接技术选取与标签相关联的实体,将标签实体以及标签相关联的实体映射到对应空间,获得知识图谱嵌入.之后,标签词向量嵌入和知识图谱嵌入进行拼接,丰富原本标签文本中的语义,再输入下一LSTM层得到最终的标签表示矩阵.标签嵌入模块将标签文本向量表示和文档文本向量表示映射到同一空间学习,聚合运算后进行最大池化操作,通过空洞卷积提取细粒度特征,利用Softmax函数进行归一化生成注意力向量层,获得与任务目标有关的注意力权重,利用注意力权重获得每个标签对应的文本特征矩阵.最后,根据初始文档文本词嵌入和相应的文本特征矩阵对文本进行分类预测.

2.2 问题定义

定义P=p1,p2,,pMM个文档构成的数据集,pi表示P中的第i个文档,pi=w1,w2,,wm,其中m为文档pi的长度,wj表示该文档的第j个单词,pi对应的分类标签由T=t1,t2,,tl表示,其中l为标签的个数.多标签文本分类的最终目的是训练出一个分类器,其任务是为未标注的文档分配最准确的一个或多个标签.

2.3 词嵌入

词嵌入对于文本数据预处理和知识感知都是不可缺少的环节,其目标是将原始文本单词转化为向量形式,形成结构化数据.本文使用词嵌入模型GloVe获得文档文本中每个单词的词嵌入表示,再输入LSTM层得到文档的每个单词的隐表示,如图2所示.

图2

图2   词嵌入模块

Fig.2   Word embedding module


2.4 标签嵌入与知识感知

标签嵌入(Label Embedding)使用GloVe对标签进行嵌入编码来获得标签的向量形式.嵌入矩阵为WdVRd×V,将文档文本对应的标签全部转换为向量形式:

eyi=WdVyi

其中,d是嵌入矩阵的维度,与词嵌入向量维度相同,|V|是标签的总数,yi是每个标签的独热编码.最后得到标签的向量表示为ey=ey1,ey2,,eyl.

知识感知的核心是引入外部知识图谱,获取标签实体的外部知识,得到标签实体的学习嵌入,丰富标签实体的特征表示.首先,将标签实体通过实体链接技术与外部知识图谱中存在的实体相关联来消除歧义,将知识图谱中对应的实体映射到对应空间,通过这些关系链接选取实体一跳范围内的其他实体来构建知识子图26.将知识子图也映射到空间里,知识子图中的全部实体以及它们之间的关系连接组成e的上下文信息:

contexte=eie,r,eiGk or ei,r,eGk

其中,r表示实体e之间的关系,Gk表示知识图谱,通过上下文信息可以扩充实体的信息.上下文实体的嵌入按式(3)来转换:

e¯=1contexteejcontexteei

其中,ei表示通过知识图谱嵌入得到的上下文实体嵌入.式(3)得出的上下文嵌入指的是全部上下文实体嵌入的平均值,因此,扩充标签文本语义信息的关键在于实现知识图谱嵌入,本文使用TransE模型得到知识图谱的相关实体嵌入.用h,r,tT表示知识图谱中的三元组,其中的关系r可以看作两个实体之间的平移向量:

lh+lrlt

其中,lh为头实体向量,lt为尾实体向量,lr为关系向量,TransE模型把关系向量lr看作头实体向量lh和尾实体向量lt的平移.为了获得正确的三元组,TransE利用损失优化函数LTransE使正确的三元组的距离小,错误的三元组距离大,如式(5)所示:

LTransE=h,l,tSh',l,t'S'ϒ+dh+l,t-dh'+l,t'+

其中,S表示正确的三元组,S'表示错误的三元组,d表示向量之间的距离,ϒ是一个常数,表示正负样本之间的间距,x+表示max0,x.错误的三元组S'由正确的三元组S里的头实体h、关系r、尾实体t其中之一随机替换成其他实体或关系生成.经过不断优化训练和调参后获得完整的TransE模型,通过模型把知识图谱中所有实体和关系都转换成向量表示来完成知识图谱嵌入,最后将知识图谱嵌入和之前标签嵌入获取的标签向量进行拼接,扩展标签的语义信息.

将拼接后的标签嵌入矩阵输入下一LSTM层,获取标签之间的相关性,之后标签嵌入与词嵌入进行聚合计算:

G=CTVG^

其中,C表示标签嵌入矩阵;V表示词嵌入矩阵;表示同位元素对应相除;G^表示K×L阶的归一化矩阵,K是标签总数,L是单词长度.G^中每个元素由标签向量嵌入和词向量嵌入进行点乘计算得出,计算结果如图1G.聚合运算后一般使用前馈神经网络层提取文本的特征,通过ReLU激活函数获得.然而利用ReLU函数存在一定的特征损失问题,本文用空洞卷积(D⁃Conv)替代前馈神经网络来提取文本的细粒度特征,进一步提取单词和标签之间的相关性.由于空洞卷积的网格效应会损失一些局部特征,本文采用多层不同扩张率的一维空洞卷积来捕获更全面的语义特征.在实验中,将扩张率设置为1,2,3,卷积核大小设置为3×3.标签嵌入如图3所示.

图3

图3   标签嵌入模块

Fig.3   Label embedding modul


2.5 标签注意力

不同的分类任务特征对输入文本的注意力权重的影响也会不同,因此需要根据不同的文本分类任务来调整注意力权重.本文将标签文本向量表示和文档文本向量表示映射到同一空间学习,通过标签嵌入的注意力机制获得的注意力向量表示文档文本中每个单词在不同分类任务中的重要程度.图3中的矩阵G通过空洞卷积操作后得到G',然后对G'的每一行进行最大池化操作得到向量y

y=max-pollingG'

在生成注意力向量层,向量y通过Softmax函数得到文本向量V的注意力向量β

βl=expxln=1Lexpxn

最后,文本特征矩阵由注意力向量β加权词嵌入计算得出:

z=lβlvl

其中,βl表示第l个元素的Attention系数,vl表示第l个单词的词嵌入.

2.6 分类预测

最后进行标签预测.本文的分类预测由两个全连接层和一个输出层组成的感知机实现,预测第i个标签出现的概率如式(10)所示:

yi=σW2fW1z

其中,W1为全连接层的参数,W2是输出层的参数,函数f为非线性激活函数,z为文本的最终表示.

2.7 损失函数

使用二元交叉熵损失作为损失函数,如式(11)所示:

Lloss=-i=1Nj=1cyijlgy^ij+1-yijlg1-y^ij

其中,N表示文档文本的总数,c表示标签的个数,y^ij0,1yij0,1分别表示第i个实例的第j个标签的预测标签和真实标签.

3 实验结果与分析

3.1 实验数据集

AAPD (Arxiv Academic Paper Dataset):由Yang et al18收集,来源于北京大学大数据研究院提供的公开英文数据集(2018年),共有55840篇与计算机科学相关的论文摘要和相对应的学科,涉及54个学科.

RCV1⁃V2 (Reuters Corpus Volume Ⅰ):由Wang et al28提供的公开英文数据集(2004年),来源于路透社收集的新闻报道,共有80多万条新闻报道,所有新闻故事都对应一个或多个主题,共涉及103个主题.

两个数据集的统计情况如表1所示.

表1   实验使用的数据集简介

Table 1  The description of datasets used in experiments

数据集样本总数标签总数

文本平均

标签数

文本平均

字数

AAPD55840542.41163.42
RCV1⁃V28044141033.24123.94

新窗口打开| 下载CSV


3.2 实验评价指标

采用Micro⁃F1作为分类算法性能的评价指标,Micro⁃Precision (P)和Micro⁃Recall (R)是实验结果分析的重要参考.Micro⁃Precision,Micro⁃Recall以及Micro⁃F1的定义如下:

P=i=1CTPii=1CTPi+FPi
R=i=1CTPii=1CTPi+FNi
F1=2PiRiP+R

其中,C表示分类的类别总数,i表示第i类标签,TPi表示正确预测为第i类的样本个数,FNi表示被错误预测为其他类的样本个数,FPi表示非第i类的其他类样本被错误预测为第i类的样本个数.

3.3 对比算法

为了充分验证LEKA模型的有效性,选择BR,LP,LEAM,LSAN和LCFA多标签文本分类算法作为对比算法.

BR9:是2004年Boutell et al9提出的多标签文本分类模型,其基本思想是将多标签学习问题转化为每个标签独立的二元分类问题.

LP10:其基本思想是将多标签学习问题转化为单标签多类分类问题,用一个多类分类器对所有独特的标签组合进行整合训练.

LEAM20:将文本和标签置于同一空间进行联合嵌入,获得更具识别性的文本表征.

LSAN1:是基于标签语义注意力学习特定于标签的文本表征.

LCFA19:是基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法,其基本思想是一方面使用自注意力机制得到基于标签的全局信息,另一方面,先使用多层空洞卷积获得高层次的语义信息,融合后送入上层网络.

3.4 实验结果与分析

表2展示了在公开数据集AAPD上,本文模型LEKA与其他对比模型的实验结果,表中黑体字表示结果最优.由表可见,本文模型LEKA优于大多数现有方法,Micro⁃F1提高10%以上.具体的实验过程如图4所示.

表2   在AAPD数据集上本文模型LEKA和对比模型的实验结果

Table 2  Experimental results of LEKA and other models on AAPD dataset

模型方法PRF1
LEKA0.7960.7120.752
BR0.6440.6480.646
LP0.6620.6080.634
LEAM0.7650.5960.670
LSAN0.7770.6460.706
LCFA0.7830.6950.726

新窗口打开| 下载CSV


图4

图4   LEKA算法和其他对比算法在AAPD数据集上的实验过程

Fig.4   Experimental process of our LEKA and other models on AAPD dataset


表3展示了RCV1⁃V2数据集上LEKA与其他对比模型的实验结果,表中黑体字表示结果最优.由表可见,LEKA与LCFA模型相比,Micro⁃F1提高了2.1%,精确率和召回率也有所提高,具体的实验过程如图5所示.证明LEKA算法在一定程度上提高了模型的性能.

表3   在RCV1⁃V2数据集上本文模型LEKA和对比模型的实验结果

Table 3  Experimental results of LEKA and other models on RCV1⁃V2 dataset

模型方法PRF1
LEKA0.9120.8730.892
BR0.9040.8160.858
LP0.8960.8240.858
LEAM0.8710.8410.856
LSAN0.9130.8410.875
LCFA0.9060.8490.877

新窗口打开| 下载CSV


图5

图5   LEKA算法和其他对比算法在RCV1⁃V2数据集上的实验过程

Fig.5   Experimental process of ou LEKA and other models on RCV1⁃V2 dataset


3.5 消融实验分析

为了验证本文提出的融合知识感知和标签嵌入方法的有效性,将知识感知模块作为实验的消融变量,在AAPD数据集上进行消融实验,实验结果如表4所示,表中黑体字表示结果最优.LE⁃noKA表示将标签嵌入向量直接输入LSTM层,和文本词嵌入点乘,在标签嵌入模块得到最终的文本表示后通过分类层进行分类预测.

表4   在AAPD数据集上的消融实验结果

Table 4  Experimental results of ablation study on AAPD dataset

模型方法PRF1
LE⁃noKA0.8850.8310.857
LEKA0.9120.8730.892

新窗口打开| 下载CSV


消融实验的结果证明本文提出的知识感知阶段对提升模型的整体性能起了很大的作用,其扩展标签的语义信息是重要的一部分.空洞卷积增强了提取文本特征的能力,进一步发现标签和词嵌入之间的相关性,有效提高了分类准确性.

3.6 不同频率标签下的性能

为了进一步分析LEKA的性能,计算不同标签频率下各标签模型对应的F1,如图6所示.由图可知,加入标签知识图谱嵌入后,本文模型LEKA在不频繁出现的标签(标签频率小于0.08)下的F1提高了9%~17%,说明LEKA能有效地解决多标签分类的尾标签问题.而对于频繁出现的标签(标签频率大于0.5),LEKA的F1也提高了4.7%,证明了扩充标签文本的语义对提高模型性能的有效性.

图6

图6   在AAPD数据集上标签F1得分

Fig.6   The label F1 score on the AAPD dataset


综上所述,对于那些低频标签,虽然可训练的样本实例较少,但通过知识图谱嵌入可以缓解低频标签引起的标签语义不足的问题,进而更好地将标签语义和文本信息关联起来,和其他模型相比对样本数据的数量依赖更低.

4 结论

本文提出一种融合标签嵌入和知识感知的多标签文本分类方法.通过知识感知的知识图谱嵌入获取标签相关的外部知识,增强标签的语义信息,进一步将标签的语义信息应用到多标签文本分类中.在标签嵌入过程中利用空洞卷积进一步增强全局和细粒度的特征提取,使标签注意力在分类预测发挥更好的作用,以获取更准确的文本表示.在两个公开数据集上的实验结果表明,本文提出的方法能更好地捕获标签和文档文本之间的相关性,学习到增强的标签注意力,提升了模型的预测性能.

未来将在多标签文本分类任务中考虑标签之间的共现关系以及在不同粒度上的注意力机制,获取更丰富的基于标签的文本表示,从而高效、准确地预测标签.

参考文献

肖琳陈博理黄鑫.

基于标签语义注意力的多标签文本分类

软件学报,202031(4):1079-1089.

[本文引用: 3]

Xiao LChen B LHuang Xet al.

Multi⁃label text classification method based on label semantic information

Journal of Software,202031(4):1079-1089.

[本文引用: 3]

Kim Y.

Convolutional neural networks for sentence classification

Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha,QatarAssociation for Computational Linguistics20141746-1751.

[本文引用: 1]

Gopal SYang Y M.

Multilabel classification with meta⁃level features

Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Geneva,SwitzerlandACM2010315-322.

[本文引用: 1]

Myagmar BLi JKimura S.

Cross⁃domain sentiment classification with bidirectional contextualized trans⁃former language models

IEEE Access,2019(7):163219-163230.

[本文引用: 1]

Tang D YQin BLiu T.

Document modeling with gated recurrent neural network for sentiment classification

Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon,PortugalAssociation for Computational Linguistics20151422-1432.

[本文引用: 1]

Guo LJin BYu R Yet al.

Multi⁃label classification methods for green computing and application for mobile medical recommendations

IEEE Access,2016(4):3201-3209.

[本文引用: 1]

徐月梅樊祖薇曹晗.

基于标签嵌入注意力机制的多任务文本分类模型

数据分析与知识发现,20226(2-3):105-116.

[本文引用: 1]

Xu Y MFan Z WCao H.

A multi-task text classification model based on label embedding of attention mechanism

Data Analysis and Knowledge Discovery,20226(2-3):105-116.

[本文引用: 1]

王鑫邹磊王朝坤.

知识图谱数据管理研究综述

软件学报,201930(7):2139-2174.

[本文引用: 1]

Wang XZou LWang C Ket al.

Research on knowledge graph data management:A survey

Journal of Software,201930(7):2139-2174.

[本文引用: 1]

Boutell M RLuo J BShen X Pet al.

Learning multi⁃label scene classification

Pattern recognition,200437(9):1757-1771.

[本文引用: 3]

Tsoumakas GKatakis I.

Multi⁃label classification:An overview

International Journal of Data Warehousing and Mining,20073(3):1-13.

[本文引用: 2]

Read JPfahringer BHolmes Get al.

Classifier chains for multi⁃label classification

Machine Learning,201185(3):333-359.

[本文引用: 1]

Wang J RFeng JSun Xet al.

Simplified constraints rank⁃SVM for multi⁃label classification

The 6th Chinese Conference on Pattern Recognition. Changsha,ChinaSpringer2014229-236.

[本文引用: 1]

Clare AKing R D.

Knowledge discovery in multi⁃label phenotype data

The 5th European Conference on Principles of Data Mining and Knowledge Discovery. Freiburg,GermanySpringer200142-53.

[本文引用: 1]

Zhang M LZhou Z H.

ML⁃KNN:A lazy learning approach to multi⁃label learning

Pattern Recognition,200740(7):2038-2048.

[本文引用: 1]

Kalchbrenner NGrefenstette EBlunsom P.

A convolutional neural network for modelling sentences

Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore,MD,USAACL2014655-665.

[本文引用: 1]

Wang JYang YMao J Het al.

CNN⁃RNN:A unified framework for multi⁃label image classifi⁃cation

Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE20162285-2294.

[本文引用: 1]

Socher RLin C C YNg A Yet al.

parsing natural scenes and natural language with recursive neural networks

Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue,WA,USAOmnipress2011129-136.

[本文引用: 1]

Yang P CSun XLi Wet al.

SGM:Sequence generation model for multi⁃label classification

Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe,NM,USAAssociation for Computational Linguistics20183915-3926.

[本文引用: 2]

邬鑫珂孙俊李志华.

采用标签组合与融合注意力的多标签文本分类

计算机工程与应用,http://kns.cnki.net/kcms/detail/11.2127.TP.20220117.1920.015.html2022-01-18.

[本文引用: 2]

Wu X KSun JLi Z H.

Multi⁃label text classification basedon label combination and fusion of attentions

Computer Engineering and Applications,http://kns.cnki.net/kcms/detail/11.2127.TP.20220117.1920.015.html2022-01-18.

[本文引用: 2]

Wang G YLi C YWang W Let al.

Joint embedding of words and labels for text classification

Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne,AustraliaACL20182321-2331.

[本文引用: 2]

Mahdisoltani FBiega JSuchanek F.

Yago3:A knowledge base from multilingual wikipedias

The 7th Biennial Conference on Innovative Data Systems Research. Asilomar,CA,USAwww.cidrdb.org,https:∥www.cidrdb.org/cidr2015/Papers/CIDR15_ Paper1.pdf2015.

[本文引用: 1]

Bollacker KEvans CParitosh Pet al.

Freebase:A collaboratively created graph database for structuring human knowledge

Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver,CanadaACM20081247-1250.

[本文引用: 1]

Wu W TLi H SWang H Xet al.

Probase:A probabilistic taxonomy for text understanding

Proceedings of 2012 ACM SIGMOD International Conference on Management of Data. Scottsdale,AZ,USAACM2012481-492.

[本文引用: 1]

Mikolov TSutskever IChen Ket al.

Distributed representations of words and phrases and their compositionality

Proceedings of the 26th Inter⁃national Conference on Neural Information Processing Systems. Lake Tahoe,NV,USACurran Associates Inc.20133111-3119.

[本文引用: 1]

Wang ZZhang J WFeng J Let al.

Knowledge graph embedding by translating on hyperplanes

Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City,CanadaAAAI Press20141112-1119.

[本文引用: 1]

Lin Y KLiu Z YSun M Set al.

Learning entity and relation embeddings for knowledge graph completion

Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin,TX,USAAAAI Press20152181-2187.

[本文引用: 2]

Xiao HHuang M LZhu X Y.

TransG:A generative model for knowledge graph embedding

Proceedings of the 54th Annual Meetings of the Association for Computational Linguistics. Berlin,GermanyACL20162316-2325.

[本文引用: 1]

Lewis D DYang Y MRose T Get al.

Rcv1:A new benchmark collection for text categorization research

The Journal of Machine Learning Research,2004(5):361-397.

[本文引用: 1]

/