南京大学学报(自然科学), 2023, 59(4): 620-628 doi: 10.13232/j.cnki.jnju.2023.04.009

融入领域知识的跨境民族文化生成式摘要方法

赵冠博1,2,3, 张勇丙,1,2,3, 毛存礼1,2,3, 高盛祥1,2,3, 王奉孝1,2,3

1.南亚东南亚语言语音信息处理教育部工程研究中心,昆明理工大学,昆明,650500

2.昆明理工大学信息工程与自动化学院,昆明,650500

3.云南省人工智能重点实验室,昆明理工大学,昆明,650500

A generative summary method of cross⁃border ethnic culture incorporating domain knowledge

Zhao Guanbo1,2,3, Zhang Yongbing,1,2,3, Mao Cunli1,2,3, Gao Shengxiang1,2,3, Wang Fengxiao1,2,3

1.South Asia and Southeast Asia Languages Voice Information Processing Engineering Research Center under the Ministry of Education,Kunming University of Science and Technology,Kunming,650500,China

2.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,650500,China

3.Yunnan Key Laboratoryof ArtificialIntelligence,Kunming University of Science and Technology,Kunming,650500,China

通讯作者: E⁃mail:zhangyongbing419@163.com

收稿日期: 2023-05-29  

基金资助: 国家自然科学基金.  62166023.  61866019
云南省重大科技专项计划.  202103AA080015.  202002AD080001
云南省自然科学基金重点项目.  2019FA023

Received: 2023-05-29  

摘要

从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用,当前基于深度学习的生成式文本摘要取得了较好的效果,但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此,提出一种融入领域知识的跨境民族文化生成式摘要方法(Domain Knowledge⁃Culture⁃Generative Summary,DKCGS),在编码端将跨境民族文化领域词典编码与原文本编码融合,以此增强模型对领域词汇的表征能力;在解码端,基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合,提高模型生成文化领域词汇的准确率.同时,在通用领域文本上进行预训练并进一步初始化参数,以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明,提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge⁃1提升了0.95,有效提升了跨境民族文化文本摘要生成的质量.

关键词: 跨境民族文化 ; 领域知识 ; 指针生成网络 ; 预训练 ; 文本摘要

Abstract

Generating summaries with domain knowledge from cross⁃border ethnic culture texts plays an important supporting role in further carrying out tasks such as cross⁃border ethnic culture text retrieval and question answering. Currently,generative text summarization based on deep learning has shown promising results. However,directly applying it to cross⁃border national cultural text summarization tasks may result in the omission of domain⁃specific words in the generated summary. Therefore,a Domain Knowledge⁃Culture⁃Generative Summary (DKCGS) method for cross⁃border ethnic culture summarization with Domain Knowledge is proposed. In the encoding end,the cross⁃border ethnic culture domain dictionary coding is integrated with the original text coding in order to enhance the representation ability of the model for domain words. At the decoder,the distribution of domain words with synonymous or cross⁃border relationships is combined with the distribution of the original text based on the pointer generation network to improve the accuracy of the model in generating cultural domain words. At the same time,it pre⁃trains and further initializes the parameters on the general domain text to alleviate the problem of poor model training effect caused by data scarcity. Experimental results show that the Rouge⁃1 of the proposed method is 0.95 higher than that of the baseline model on the cross⁃border ethnic text summarization dataset,which effectively improves the quality of cross⁃border ethnic culture text summarization generation.

Keywords: cross⁃border ethnic culture ; domain knowledge ; pointer⁃generator network ; pre⁃trained ; text summary

PDF (1015KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵冠博, 张勇丙, 毛存礼, 高盛祥, 王奉孝. 融入领域知识的跨境民族文化生成式摘要方法. 南京大学学报(自然科学)[J], 2023, 59(4): 620-628 doi:10.13232/j.cnki.jnju.2023.04.009

Zhao Guanbo, Zhang Yongbing, Mao Cunli, Gao Shengxiang, Wang Fengxiao. A generative summary method of cross⁃border ethnic culture incorporating domain knowledge. Journal of nanjing University[J], 2023, 59(4): 620-628 doi:10.13232/j.cnki.jnju.2023.04.009

跨境民族指居住地跨越国境线,彼此有相似的文化背景、文化习俗、节日等特点的民族.跨境民族文化文本摘要任务旨在从跨境民族文化文本中生成具有民族领域特点的摘要,对进一步开展跨境民族文化分析任务具有重要的支撑作用.

当前文本摘要生成方法主要是在端到端框架的基础上,利用不同编码方式增强模型对文本的编码能力,提升生成摘要的质量,这些工作在提升模型对原文本语义表征能力上都取得了较好的效果1-3.与通用领域文本不同的是,跨境民族文化文本中存在大量领域词汇以及部分组合词汇,如“楞贺桑勘”“罕纳因”“咖喱蟹芒果香饭”“菠萝紫米饭”等.如图1所示(图中黑体字表示跨境民族文化领域词汇),利用FAME4方法生成的摘要没有正确生成出原文本中的跨境民族文化领域词汇(“楞贺桑勘”),分析其原因是跨境民族文化领域词汇多为低频词,导致模型对领域词汇的表征能力不足,生成的摘要出现错误的领域词汇.针对这一类问题,研究人员提出利用关键词、重要句等先验知识来进一步增强模型对原文本重要信息的编码能力,生成符合原文事实的摘要5-6,而且,外部知识在文本摘要生成任务中有着广泛的应用7,因而将跨境民族文化领域词典作为外部知识,能够有效地引导模型对相关领域词汇的表征与编码.

图1

图1   跨境民族文化文本摘要的样例

Fig.1   A sample for text summarization of cross⁃border ethnic cultures


基于以上思想,本文提出一种融入领域知识的跨境民族文化文本摘要生成方法(Domain Knowledge⁃Culture⁃Generative Summary,DKCGS),通过在编码端融入领域词典以及在解码端增加指针生成网络的方式,提高跨境民族文化文本摘要的质量,并采用预训练的方式对模型参数进行初始化,缓解跨境民族文化文本摘要数据稀缺而导致的模型训练效果不佳的问题.

本文的主要贡献:

(1)为了提高模型在编码过程中对领域知识的关注,在编码端引入跨境民族文化领域词典,以提高模型对领域词汇的表征能力.

(2)为了在解码过程中提高领域词汇的生成概率,在解码端计算领域词典的候选词概率分布,并利用指针生成网络结合领域候选词分布与融合领域知识的概率分布生成最终的摘要.

(3)在构建的跨境民族文化文本摘要数据集上进行实验,实验结果表明DKCGS比基线模型的Rouge⁃1提升了0.95,达到26.62.

1 相关理论

目前,文本摘要方法主要分抽取式和生成式两大类.

(1)抽取式摘要方法:抽取式摘要通常利用不同的方法对原文句子进行评价,对每个句子赋予一定权重,选择原文最重要的句子来组成摘要.Mihalcea and Tarau8利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata9基于深度学习来建模文本中的句子,把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al10提出一种以子句作为抽取单元的抽取式摘要方法,在一定程度上减轻了摘要的冗余性和不必要性.

(2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al11在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al12在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al13将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al4引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al7引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales14扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果15,但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题.

在面向特定领域的文本摘要研究方面,Afzal et al16通过引入医学领域实体信息来提高模型对文本编码的能力,指导医学文本摘要的生成.蔡中祥和孙建伟17针对党建新闻文本摘要生成领域,提出一种融合指针网络的自动文本摘要模型Tri⁃PCN,利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入,在一定程度上提高了模型生成摘要的质量.但是,将这些方法应用到跨境民族文化领域中,仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题.

2 融入领域知识的跨境民族文化文本摘要模型

为了缓解跨境民族文化领域词汇丢失的问题,本文提出一种融入领域知识的跨境民族文化文本摘要生成方法DKCGS,其模型架构如图2所示,主要分融入领域词典的编码器和基于指针生成网络的解码器两部分.在编码器中增加了领域词典的融入,以提高模型对领域词汇的表征能力;在解码器中利用领域词典构建了指针生成网络,以提高领域词汇的生成概率.

图2

图2   DKCGS的模型图

Fig.2   The diagram of the DKCGS model


2.1 融入领域词典的编码器

给定一组跨境民族文化文本摘要数据集D=X,Y,其中输入文档序列X=x1,x2,x3,,xn,摘要输入序列Y=y1,y2,y3,,ymn>m.为了使模型理解输入文档的单词顺序,还需要对输入序列进行位置嵌入.因此,原文档词向量表征Fi可表示为:

Ei=PExi+Embxi
Fi=TransformerEi

其中,PE表示位置嵌入层,Emb表示文本嵌入层,Ei表示文本的词向量表示.

图3所示,本文用跨境民族文化领域词典对输入文档序列X中的词汇xj进行查表,得到对应的领域词汇集合XL;通过Word2vec模型得到XL的嵌入表示T,并将其添加到输入文档中每个词的编码中;最后,将融合后的全文编码向量Z送入解码端进行解码计算.具体计算如下:

T=Word2vecXL
Zi=TW1+FiW2+g1

其中,Fi表示第i个词的Tranformer编码,W1W2是参数矩阵,用来分配词典编码与全文编码的权重,g1是偏置参数.

图3

图3   领域词典与输入文档融合

Fig.3   The domain dictionary fused with the input document


2.2 基于指针生成网络的解码器

跨境民族文化文档包含大量的领域词汇,采用传统的Transformer解码器可能会将领域词汇的隐状态解码为通用词汇,导致生成的摘要中丢失领域词汇.为了提高摘要中领域词汇的生成概率,在解码端构建以跨境民族文化领域词典为基础的指针生成网络,使模型最终的生成概率不仅依赖隐状态生成概率,还依赖领域词典的候选词概率.

与编码器类似,首先将摘要输入序列进行句子表征,得到Et,如下所示:

Et=PEy+Emby

然后,经过多头自注意力机制对摘要句子特征进行提取,如下所示:

Qk=MultiheadEt,Et,Et

再采用交叉注意力机制进行交互,如下所示:

Yk=Cross­attQk,Z,Z

得到隐状态Yk后,经过线性函数变换和Softmax计算得到隐状态在领域词典的概率分布Pk,如下所示:

fYk=YkW3+g2
Pk=SoftmaxfYk

其中,W3是参数矩阵,g2是偏置参数.

在此基础上,模型可以根据权重来预测当前状态下需要关注的领域词汇,选择概率最大的词汇作为领域候选词.在解码端引入跨境民族文化领域词典构建指针生成网络的方法可以提高摘要中领域词汇的生成概率,如图2中领域候选词生成模块所示.在得到了当前时刻的注意力分布下,模型能够预测“毫瓦萨”是需要关注的词汇,而“毫瓦萨”在领域词典中有许多语义相近的词汇,模型把这些词汇分别代入并进行计算,得到其生成的概率,取最大值代表的词汇作为当前时刻的候选词.

指针生成网络判断词汇是从原文复制还是从词表生成的依据是通过门控机制控制的.使用U作为解码器在k时刻下的隐状态,计算k时刻下的生成概率PgenPgen0,1.计算过程如下:

U=FFNYk
Pgen=σW5W4U+g3+g4

其中,W4W5是参数矩阵,g3g4是偏置向量,σ是sigmoid函数.解码过程中,Pgen起一个软开关的作用,用于选择从解码端生成一个词语,或选择从词典中复制一个词语.最终摘要生成的概率P的计算过程如下:

PN=SoftmaxUW6+g5
P=PgenPN+1-PgenYkPk

其中,W6是参数矩阵,g5是偏置参数.

2.3 模型训练

由于跨境民族文化领域的文本摘要数据集的规模有限,为了使模型在初始化阶段有较好的文本摘要建模能力,本研究在模型训练初期引入文本摘要预训练过程,通过大规模的文本摘要数据集对模型进行预训练.具体地,首先在开源数据集THUCNews(http:∥thuctc.thunlp.org/)上对Transformer2进行训练,得到一个通用的文本摘要预训练生成模型,然后,对人工构建的跨境民族文化文本摘要数据集进行微调.模型训练的损失函数计算如下:

Loss=tTTεlg21Pt-1-εlog211-Pt

其中,Pt表示在t时刻模型预测结果正确的概率,ε为超参数.

3 实验分析

3.1 实验数据

首先利用THUCNews数据集进行预训练,然后对人工构建的跨境民族文化文本摘要数据集进行微调.其中,THUCNews数据集包含74万余篇摘要与正文一一对应的文档,跨境民族文化文本摘要数据集有10112篇文本.实验中,选取9112篇文本数据作为训练集,验证集和测试集各包含500篇文本.由于跨境民族文化的多样性,一些跨境民族的中文新闻文本较少且信息冗杂,因此构建的文本摘要数据集仅涉及傣族与彝族这些来源相对丰富的文本.

同时,在爬取的跨境民族文化文本基础上,人工构建了包含3123条数据的跨境民族文化领域词典,涉及节日、宗教、建筑等七种类型.其中有大约200条语义相近但表述不一致的数据,如“开门节”是中国傣族庆祝的名称,而在泰国、老挝等国家大多称为“出夏节”,同时,还有少部分人称其为“出洼节”.其他语义相似的领域词汇如表1所示.

表1   跨境民族文化领域词典示例

Table 1  Sample dictionaries in the field of cross⁃border ethnic culture

领域词汇别称
泼水节摆爽南、佛诞节、宋干节
开门节出洼节、出夏节
叫谷魂招谷魂
婚礼金欠
关门节进洼
花街节赶花街
…………

新窗口打开| 下载CSV


3.2 参数设置

本文模型DKCGS基于Pytorch框架实现,并在单个GTX 3090 GPU上进行训练.训练过程采用Adam18优化器,其中,β1=0.9β2=0.998ε=1e-3.设置的词表大小为16 k.测试阶段采用Beam⁃Search搜索策略,当模型解码出EOS标签或解码长度超过120时则停止解码.其他的参数设置如表2所示.

表2   本文模型在实验中的参数设置

Table 2  Parameter setting of our model in experiments

项目名称数值设置
模型隐藏大小512
前馈隐藏大小1024
编解码器层数6层
Transformer头数4
Batch_size12
epochs20
dropout0.1
Beam_search3

新窗口打开| 下载CSV


3.3 评价指标

使用Rouge (Recall Oriented under Study for Gisting Evaluation)将生成的摘要与参考摘要进行比对计算,Rouge是基于召回率的摘要质量评测,其中,Rouge⁃N主要是计算n⁃gram上的召回率,如下所示:

Rouge­N=SRefSumn­gramSCmatchn-gramSRefSumn­gramSCn-gram

其中,分母为参考摘要中n⁃gram的个数,即式中的Cn-gramn-gram;分子为参考摘要和生成摘要共有的n⁃gram个数,即式中的Cmatchn-gramRefSum表示参考摘要.

采用Rouge⁃1,Rouge⁃2,Rouge⁃L三个评测指标进行评测19,Rouge⁃L考虑了参考摘要和生成摘要的最长公共子序列.

Rlcs=LCSRefSum,CreSumlenRefSum
Plcs=LCSRefSum,CreSumlenCreSum
Flcs=1+β2RlcsPlcsRlcs+β2Plcs

其中,RefSum表示参考摘要,lenRefSum表示参考摘要的长度,CreSum表示生成摘要,lenCreSum表示生成摘要的长度.LCS RefSum,CreSum表示参考摘要和生成摘要的最长公共子序列.RlcsPlcs分别表示计算所得的召回率和准确率,Flcs即为Rouge⁃L的值.

3.4 实验结果与分析

3.4.1 不同方法的实验结果对比

选择七个模型作为基准模型,分别是Lead⁃1⁃First,TextRank,Pointer,RNN Context,Unlim,FAME和Tri⁃PCN.

(1) Lead⁃1⁃First:将输入文本开头的第一句话作为摘要输出.

(2) TextRank8:利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或者几个句子当作摘要.

(3) Pointer13:在解码器增加了一个指针开关,缓解了词汇表大小导致的未登录词问题.

(4) RNN Context1:编解码器采用GRU(Gate Recurrent Unit),对每个解码器的隐藏状态与编码器的每个隐藏状态进行注意力机制的计算,将计算结果作为上下文向量用于当前时刻解码器的输出.

(5) Unlim3:在原有seq2seq(Sequence to Sequence)框架基础上,将编码端的Bi⁃LSTM(Bi⁃Directional Long Short⁃Term Memory)换为Bert(Bidirectional Encoder Representations from Transformers)编码.

(6) FAME4:在基于Transformer的seq2seq基础上,引入主题词的信息,提升摘要的质量,该模型是本文的基准模型.

(7) Tri⁃PCN17:使用Transformer模型在解码阶段提取多层次全局文本特征,在解码端利用指针网络的复读机制来保留关键的党建信息.

所有基准模型的训练集和测试集的划分均与DKCGS相同,均是先在THUCNews数据集上进行预训练并保留参数,然后在跨境民族文化文本摘要数据集上进行实验.将DKCGS与七个对比模型进行比较,具体的实验结果如表3所示,表中黑体字表示最优的性能.

表3   本文方法和七种对比算法的实验结果对比

Table 3  Experimental results of our model and other seven different methods

模型名称Rouge⁃1Rouge⁃2Rouge⁃L

抽取式

方法

Lead⁃1⁃First23.5311.6822.83
TextRank23.8611.5422.46

生成式

方法

Pointer24.6412.7123.36
RNN Context24.0112.5623.12
Unlim25.8312.6124.37
FAME25.6712.9624.64
Tri⁃PCN24.8812.6424.17
DKCGS26.6213.6325.41

新窗口打开| 下载CSV


由表可知,与抽取式方法相比,DKCGS在对原文语义理解的基础上生成的摘要质量更优,主要是因为本文使用的数据集中每篇文本的平均句子数为6~8,抽取式方法得到的句子数为2~3,所以抽取式方法得到的摘要信息较为冗杂.

与生成式方法相比,DKCGS的Rough比Pointer,RNN Context有较大提升,说明Transformer编码器对文档的编码能力优于Bi⁃LSTM和GRU编码器.与Unlim和FAME相比,Rouge也有提升,比FAME分别提升0.95,0.67和0.77,尤其是Rouge⁃1的提升效果明显.说明在编码端融入领域词典可以有效地学习跨境民族文化文本中的领域词汇知识,提升模型对领域词汇的表征效果;在解码器中利用领域词典引导指针生成网络,可以提高模型生成领域词汇的概率.

本文方法的实验结果同样也优于Tri⁃PCN,主要原因是Tri⁃PCN缺少对文本中领域信息的关注,使生成的摘要中出现错误的领域词汇,而本文方法在编码和解码过程中都融入了领域词典,有效提高了模型对领域词汇的表征能力.

3.4.2 领域词典不同词向量的表征实验

为了检验Word2vec对跨境民族文化领域词典编码的效果,分别使用Word2vec、GloVe、随机初始化三种领域词典编码的方式进行实验,具体实验结果如表4所示,表中黑体字表示最优的性能.

表4   不同词典编码方式的实验结果

Table 4  Experimental results with different dictionary encodings

词典编码方式Rouge⁃1Rouge⁃2Rouge⁃L
随机初始化22.5711.4321.11
GloVe26.3113.4724.86
Word2vec26.6213.6225.41

新窗口打开| 下载CSV


整体来看,模型参数随机初始化进行实验的效果相对较差,说明对词典编码的随机初始化不能使模型学习更充足的领域词汇知识;其次,Word2vec略优于GloVe编码的效果,原因是GloVe是基于全局词频统计的编码思想,主要捕捉单词之间的一些语义特性,而Word2vec是从词语所在的语境信息来得到编码并加和为一个总向量来表示,这样可以使模型更好地根据文本中领域词汇的上下文语境来增强词汇表征能力.所以,本文采用Word2vec的方式进行跨境民族文化领域词典的编码.

3.4.3 消融实验

为了验证跨境民族文化领域词典、预训练以及指针生成网络对文本摘要生成的效果,在THUCNews和跨境民族文化文本摘要数据集上进行消融实验.其中,Transformer指单独采用Transformer并只在跨境民族文化文本摘要数据集上进行训练的实验,该实验没有在THUCNews数据集上进行预训练,其他实验均在增加预训练的前提下进行实验.具体的实验结果如表5所示,表中黑体字表示最优的性能.

表5   消融实验的结果

Table 5  Experimental results of ablation

方法Rouge⁃1Rouge⁃2Rouge⁃L
DKCGS26.6213.6325.41
Transformer13.567.0211.22
Transformer+预训练24.2311.0722.48
Transformer+预训练+领域词典26.1413.2124.56

新窗口打开| 下载CSV


由表可见,使用Transformer的实验,Rouge指标远低于Transformer+预训练的方法,说明模型经过预训练后可以学习到更多的语义知识,更好地指导摘要生成.在编码端增加领域词典后,Rouge指标分别提升1.91,2.14和2.08,说明模型在解码时能更好地关注文本中的领域词汇,提高领域词汇在摘要中的生成概率.在解码端增加指针生成网络模块后,Rouge指标分别提升0.48,0.42和0.85,说明指针生成网络可以更好地将文本中出现的领域词汇与词典中的词进行筛选,将符合当前文本语义的领域词生成到摘要中,缓解未登录词问题和遗漏跨境民族文化领域词汇的问题.为了进一步证明本文方法的有效性,利用Koehn20重采样方法进行显著性检验(P<0.05).

3.4.4 词典规模对实验结果的影响

为了验证本文算法的实验结果对领域词典规模的依赖程度,在不同规模大小的领域词典上进行实验,实验结果如表6所示,表中黑体字表示最优的性能.

表6   词典规模对本文模型性能的影响

Table 6  Influence of dictionary scale to our model

词典规模Rouge⁃1Rouge⁃2Rouge⁃L
100024.3511.3722.54
150025.2412.3722.96
200025.6712.7223.98
250026.4313.5325.11
300026.6213.6225.40
312326.6213.6325.41

新窗口打开| 下载CSV


由表可知,Rouge指标随着词典规模的增大而增大,说明模型生成包含领域词汇的摘要对领域词典规模具有较强的依赖.当词典规模达到2500后,Rouge⁃1的增长趋于平缓,并且在词典规模达到3000后,其增长幅度趋近0.分析其原因是,领域词典规模达到3000后,其包含的词汇已经覆盖大多数跨境民族文化文本中出现的领域词汇,再增加词典规模,Rouge⁃1也不会大幅增长.综合上述实验结果,证明本文方法的实验结果对领域词典规模大小具有较强的依赖性.

3.4.5 实例分析

为了更直观地分析本文方法与基线模型在领域摘要生成的效果,对不同模型的摘要生成的样例进行对比分析,具体结果如图4所示,图中黑体字表示摘要中的领域词汇以及未登录词.由图可见,利用TextRank方法得到的摘要语义连贯,且摘要中没有出现错误的领域词汇,这是因为TextRank对文本中的句子进行相似度计算并根据得分高低进行排序,它不会改变原文的文字,但会因为多个语义相似句子而计算出高的分数,导致摘要中出现语句重复、摘要字数过长的问题.利用FAME方法生成的摘要出现将“谷仓”识别为“谷”的跨境民族文化领域词汇识别错误和“unk”问题,这是因为领域词汇在摘要数据集中出现的频率较低,Transformer不能很好地学习这些领域词汇的语义知识.本文方法生成的摘要与参考摘要最匹配,不仅关注了正文中的关键信息,还准确体现了跨境民族文化领域词汇的特征,说明本文方法可以生成语义比基线模型更合适的摘要.

图4

图4   不同对比模型生成摘要样例分析

Fig.4   Samples of summary generation by different models


4 结论

针对跨境民族文化文本摘要任务中领域词汇丢失的问题,本文提出一种融入领域知识的跨境民族文化生成式摘要方法.在编码端,通过增加跨境民族文化领域词典的方式,有效提高了输入文本中领域词汇的权重,帮助模型关注文本中的领域词;在解码端,通过融入跨境民族文化领域词典构建指针生成网络,将候选词分布与原文概率分布融合,有效提升了模型生成跨境民族文化领域词汇的概率.实验结果证明,提出的方法对于跨境民族文化领域的文本摘要任务有良好的效果.未来将进一步探索领域知识图谱在跨境民族文化文本摘要任务中的应用.

参考文献

Hu B TChen Q CZhu F Z.

LCSTS:A large scale Chinese short text summarization dataset

Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon,PortugalACL20151967-1972.

[本文引用: 2]

Vaswani AShazeer NParmar Net al.

Attention is all you need

Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,CA,USACurran Associates Inc.20176000-6010.

[本文引用: 1]

Dong LYang NWang W Het al.

Unified language model pre⁃training for natural language understanding and generation

Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver,CanadaCurran Associates Inc.201913063-13075.

[本文引用: 2]

Aralikatte RNarayan SMaynez Jet al.

Focus attention:Promoting faithfulness and diversity in summarization

Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics,the 11th International Joint Conference on Natural Language Processing. Bangkok,ThailandACL20216078-6095.

[本文引用: 3]

Zhu J NZhou YZhang J Jet al.

Attend,translate and summarize:An efficient method for neural cross⁃lingual summarization

Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Washington DC,WA,USAACL20201309-1321.

[本文引用: 1]

Nallapati RZhou B WDos Santos Cet al.

Abstractive text summarization using sequence⁃to⁃sequence RNNs and beyond

Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin,GermanyAssociation for Computational Linguistics2016280-290.

[本文引用: 1]

Dou Z YLiu P FHayashi Het al.

GSum:a general framework for guided neural abstractive summarization

Proceedings of 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. OnlineAssociation for Computational Linguistics20214830-4842.

[本文引用: 2]

Mihalcea RTarau P.

TextRank:bringing order into text

Proceedings of 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona,SpainACL2004404-411.

[本文引用: 2]

Liu YLapata M.

Text summarization with pretrained encoders

Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processingthe 9th International Joint Conference on Natural Language Processing. Hong KongChinaAssociation for Computational Linguistics20193730-3740.

[本文引用: 1]

Zhou Q YYang NWei F Ret al.

Selective encoding for abstractive sentence summarization

Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Volume 1Long Papers. Vancouver,CanadaAssociation for Computational Linguistics,2017:1095-1104.

[本文引用: 1]

Rush A MChopra SWeston J.

A neural attention model for abstractive sentence summarization

Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon,PortugalAssociation for Computational Linguistics2015379-389.

[本文引用: 1]

Chopra SAuli MRush A M.

Abstractive sentence summarization with attentive recurrent neural networks

Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego,CA,USAACL201693-98.

[本文引用: 1]

See ALiu P JManning C D.

Get to the point:Summarization with pointer⁃generator networks

Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Volume 1. LongPapers. Vancouver,Canada:ACL,20171073-1083.

[本文引用: 2]

Manakul PGales M.

Long⁃span summarization via local attention and content selection

Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics,the 11th International Joint Conference on Natural Language Processing. Bangkok,ThailandACL20216026-6041.

[本文引用: 1]

Li C LXu W RLi Set al.

Guiding generation for abstractive text summarization based on key information guide network

Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Volume 2.PapersShort. New Orleans,LA,USAAssociation for Computational Linguistics201855-60.

[本文引用: 1]

Afzal MAlam FMalik K Met al.

Clinical context⁃aware biomedical text summarization using deep neural network:Model development and validation

Journal of Medical Internet Research,202022(10):e19810.

[本文引用: 1]

蔡中祥孙建伟.

融合指针网络的新闻文本摘要模型

小型微型计算机系统,202142(3):462-466.

[本文引用: 2]

Cai Z XSun J W.

News text summarization model integrating pointer network

Journal of Chinese Computer Systems,202142(3):462-466.

[本文引用: 2]

Kingma D PBa J.

Adam:A method for stochastic optimization

Proceedings of the 3rd International Conference on Learning Representations. San Diego,CA,USAICLR2015,arXiv:.

[本文引用: 1]

Lin C Y.

ROUGE:a package for automatic evaluation of summaries

Proceedings of the Text Summarization Branches Out. Barcelona,SpainACL200474-81.

[本文引用: 1]

Koehn P.

Statistical significance tests for machine translation evaluation

Proceedings of 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona,SpainACL2004388-395.

[本文引用: 1]

/