融入领域知识的跨境民族文化生成式摘要方法

图1 跨境民族文化文本摘要的样例

Fig.1 A sample for text summarization of cross⁃border ethnic cultures

基于以上思想，本文提出一种融入领域知识的跨境民族文化文本摘要生成方法（Domain Knowledge⁃Culture⁃Generative Summary，DKCGS），通过在编码端融入领域词典以及在解码端增加指针生成网络的方式，提高跨境民族文化文本摘要的质量，并采用预训练的方式对模型参数进行初始化，缓解跨境民族文化文本摘要数据稀缺而导致的模型训练效果不佳的问题.

本文的主要贡献：

（1）为了提高模型在编码过程中对领域知识的关注，在编码端引入跨境民族文化领域词典，以提高模型对领域词汇的表征能力.

（2）为了在解码过程中提高领域词汇的生成概率，在解码端计算领域词典的候选词概率分布，并利用指针生成网络结合领域候选词分布与融合领域知识的概率分布生成最终的摘要.

（3）在构建的跨境民族文化文本摘要数据集上进行实验，实验结果表明DKCGS比基线模型的Rouge⁃1提升了0.95，达到26.62.

1 相关理论

目前，文本摘要方法主要分抽取式和生成式两大类.

（1）抽取式摘要方法：抽取式摘要通常利用不同的方法对原文句子进行评价，对每个句子赋予一定权重，选择原文最重要的句子来组成摘要.Mihalcea and Tarau^［8］利用相似度计算的方法对句子的重要性进行排序，选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata^［9］基于深度学习来建模文本中的句子，把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al^［10］提出一种以子句作为抽取单元的抽取式摘要方法，在一定程度上减轻了摘要的冗余性和不必要性.

（2）生成式摘要方法：生成式摘要是在对原文档进行语义理解的基础上生成摘要，摘要内容更凝练和简洁.Rush et al^［11］在大量的新闻文档及标题上训练基于注意力的神经网络模型，Chopra et al^［12］在此基础上增加了输入序列的位置信息，得到了效果更佳的模型.See et al^［13］将指针生成网络引入序列到序列的模型，缓解了未登录词和摘要句重复的问题.Aralikatte et al^［4］引入文本主题信息来引导摘要生成，在全文理解的基础上生成摘要.Dou et al^［7］引入不同种类的外部知识来引导摘要生成，在全文理解的基础上生成摘要.Manakul and Gales^［14］扩展了大规模预训练模型，提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果^［15］，但直接用于特定领域的文本摘要任务时，由于没有领域知识作为先验知识，生成的摘要存在领域词汇丢失的问题.

在面向特定领域的文本摘要研究方面，Afzal et al^［16］通过引入医学领域实体信息来提高模型对文本编码的能力，指导医学文本摘要的生成.蔡中祥和孙建伟^［17］针对党建新闻文本摘要生成领域，提出一种融合指针网络的自动文本摘要模型Tri⁃PCN，利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入，在一定程度上提高了模型生成摘要的质量.但是，将这些方法应用到跨境民族文化领域中，仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题.

2 融入领域知识的跨境民族文化文本摘要模型

为了缓解跨境民族文化领域词汇丢失的问题，本文提出一种融入领域知识的跨境民族文化文本摘要生成方法DKCGS，其模型架构如图2所示，主要分融入领域词典的编码器和基于指针生成网络的解码器两部分.在编码器中增加了领域词典的融入，以提高模型对领域词汇的表征能力；在解码器中利用领域词典构建了指针生成网络，以提高领域词汇的生成概率.

图2

图2 DKCGS的模型图

Fig.2 The diagram of the DKCGS model

2.1　融入领域词典的编码器

给定一组跨境民族文化文本摘要数据集 $D = (X, Y)$ ，其中输入文档序列 $X = (x_{1}, x_{2}, x_{3}, \dots, x_{n})$ ，摘要输入序列 $Y = (y_{1}, y_{2}, y_{3}, \dots, y_{m})$ ， $n > m$ .为了使模型理解输入文档的单词顺序，还需要对输入序列进行位置嵌入.因此，原文档词向量表征 $F_{i}$ 可表示为：

E_{i} = P E (x_{i}) + E m b (x_{i})

（1）

F_{i} = T r a n s f o r m e r (E_{i})

（2）

其中，PE表示位置嵌入层，Emb表示文本嵌入层， $E_{i}$ 表示文本的词向量表示.

如图3所示，本文用跨境民族文化领域词典对输入文档序列X中的词汇 $x_{j}$ 进行查表，得到对应的领域词汇集合 $X_{L}$ ；通过Word2vec模型得到 $X_{L}$ 的嵌入表示T，并将其添加到输入文档中每个词的编码中；最后，将融合后的全文编码向量 $Z$ 送入解码端进行解码计算.具体计算如下：

T = W o r d 2 v e c (X_{L})

（3）

Z_{i} = T W_{1} + F_{i} W_{2} + g_{1}

（4）

其中， $F_{i}$ 表示第i个词的Tranformer编码， $W_{1}$ ， $W_{2}$ 是参数矩阵，用来分配词典编码与全文编码的权重， $g_{1}$ 是偏置参数.

图3

图3 领域词典与输入文档融合

Fig.3 The domain dictionary fused with the input document

2.2　基于指针生成网络的解码器

跨境民族文化文档包含大量的领域词汇，采用传统的Transformer解码器可能会将领域词汇的隐状态解码为通用词汇，导致生成的摘要中丢失领域词汇.为了提高摘要中领域词汇的生成概率，在解码端构建以跨境民族文化领域词典为基础的指针生成网络，使模型最终的生成概率不仅依赖隐状态生成概率，还依赖领域词典的候选词概率.

与编码器类似，首先将摘要输入序列进行句子表征，得到 $E_{t}$ ，如下所示：

E_{t} = P E (y) + E m b (y)

（5）

然后，经过多头自注意力机制对摘要句子特征进行提取，如下所示：

Q_{k} = M u l t i h e a d (E_{t}, E_{t}, E_{t})

（6）

再采用交叉注意力机制进行交互，如下所示：

Y_{k} = C r o s s ­ a t t (Q_{k}, Z, Z)

（7）

得到隐状态 $Y_{k}$ 后，经过线性函数变换和Softmax计算得到隐状态在领域词典的概率分布 $P_{k}$ ，如下所示：

f (Y_{k}) = Y_{k} W_{3} + g_{2}

（8）

P_{k} = S o f t m a x (f (Y_{k}))

（9）

其中， $W_{3}$ 是参数矩阵， $g_{2}$ 是偏置参数.

在此基础上，模型可以根据权重来预测当前状态下需要关注的领域词汇，选择概率最大的词汇作为领域候选词.在解码端引入跨境民族文化领域词典构建指针生成网络的方法可以提高摘要中领域词汇的生成概率，如图2中领域候选词生成模块所示.在得到了当前时刻的注意力分布下，模型能够预测“毫瓦萨”是需要关注的词汇，而“毫瓦萨”在领域词典中有许多语义相近的词汇，模型把这些词汇分别代入并进行计算，得到其生成的概率，取最大值代表的词汇作为当前时刻的候选词.

指针生成网络判断词汇是从原文复制还是从词表生成的依据是通过门控机制控制的.使用 $U$ 作为解码器在k时刻下的隐状态，计算k时刻下的生成概率 $P_{g e n}$ ， $P_{g e n} \in (0,1)$ .计算过程如下：

U = F F N (Y_{k})

（10）

P_{g e n} = σ (W_{5} (W_{4} U + g_{3}) + g_{4})

（11）

其中， $W_{4}$ ， $W_{5}$ 是参数矩阵， $g_{3}$ ， $g_{4}$ 是偏置向量， $σ$ 是sigmoid函数.解码过程中， $P_{g e n}$ 起一个软开关的作用，用于选择从解码端生成一个词语，或选择从词典中复制一个词语.最终摘要生成的概率P的计算过程如下：

P_{N} = S o f t m a x (U W_{6} + g_{5})

（12）

P = P_{g e n} P_{N} + (1 - P_{g e n}) Y_{k} P_{k}

（13）

其中， $W_{6}$ 是参数矩阵， $g_{5}$ 是偏置参数.

2.3　模型训练

由于跨境民族文化领域的文本摘要数据集的规模有限，为了使模型在初始化阶段有较好的文本摘要建模能力，本研究在模型训练初期引入文本摘要预训练过程，通过大规模的文本摘要数据集对模型进行预训练.具体地，首先在开源数据集THUCNews（http：∥thuctc.thunlp.org/）上对Transformer^［2］进行训练，得到一个通用的文本摘要预训练生成模型，然后，对人工构建的跨境民族文化文本摘要数据集进行微调.模型训练的损失函数计算如下：

L o s s = \sum_{t \in T}^{T} [ε l g_{2} (\frac{1}{P_{t}}) - (1 - ε) l o g_{2} (\frac{1}{1 - P_{t}})]

（14）

其中， $P_{t}$ 表示在 $t$ 时刻模型预测结果正确的概率， $ε$ 为超参数.

3 实验分析

3.1　实验数据

首先利用THUCNews数据集进行预训练，然后对人工构建的跨境民族文化文本摘要数据集进行微调.其中，THUCNews数据集包含74万余篇摘要与正文一一对应的文档，跨境民族文化文本摘要数据集有10112篇文本.实验中，选取9112篇文本数据作为训练集，验证集和测试集各包含500篇文本.由于跨境民族文化的多样性，一些跨境民族的中文新闻文本较少且信息冗杂，因此构建的文本摘要数据集仅涉及傣族与彝族这些来源相对丰富的文本.

同时，在爬取的跨境民族文化文本基础上，人工构建了包含3123条数据的跨境民族文化领域词典，涉及节日、宗教、建筑等七种类型.其中有大约200条语义相近但表述不一致的数据，如“开门节”是中国傣族庆祝的名称，而在泰国、老挝等国家大多称为“出夏节”，同时，还有少部分人称其为“出洼节”.其他语义相似的领域词汇如表1所示.

表1 跨境民族文化领域词典示例

Table 1 Sample dictionaries in the field of cross⁃border ethnic culture

领域词汇	别称
泼水节	摆爽南、佛诞节、宋干节
开门节	出洼节、出夏节
叫谷魂	招谷魂
婚礼	金欠
关门节	进洼
花街节	赶花街
……	……

3.2　参数设置

本文模型DKCGS基于Pytorch框架实现，并在单个GTX 3090 GPU上进行训练.训练过程采用Adam^［18］优化器，其中， $β_{1} = 0.9$ ， $β_{2} = 0.998$ ， $ε = 1 e - 3$ .设置的词表大小为16 k.测试阶段采用Beam⁃Search搜索策略，当模型解码出 $〈E O S〉$ 标签或解码长度超过120时则停止解码.其他的参数设置如表2所示.

表2 本文模型在实验中的参数设置

Table 2 Parameter setting of our model in experiments

项目名称	数值设置
模型隐藏大小	512
前馈隐藏大小	1024
编解码器层数	6层
Transformer头数	4
Batch_size	12
epochs	20
dropout	0.1
Beam_search	3

3.3　评价指标

使用Rouge （Recall Oriented under Study for Gisting Evaluation）将生成的摘要与参考摘要进行比对计算，Rouge是基于召回率的摘要质量评测，其中，Rouge⁃N主要是计算n⁃gram上的召回率，如下所示：

\begin{array}{l} R o u g e ­ N = \\ \frac{\sum_{S \in \{R e f S u m\}} \sum_{n ­ g r a m \in S} C_{m a t c h} (n - g r a m)}{\sum_{S \in \{R e f S u m\}} \sum_{n ­ g r a m \in S} C (n - g r a m)} \end{array}

（15）

其中，分母为参考摘要中n⁃gram的个数，即式中的 $C {(n - g r a m)}_{(n - g r a m)}$ ；分子为参考摘要和生成摘要共有的n⁃gram个数，即式中的 $C_{m a t c h} (n - g r a m)$ ； $\{R e f S u m\}$ 表示参考摘要.

采用Rouge⁃1，Rouge⁃2，Rouge⁃L三个评测指标进行评测^［19］，Rouge⁃L考虑了参考摘要和生成摘要的最长公共子序列.

R_{l c s} = \frac{L C S (R e f S u m, C r e S u m)}{l e n (R e f S u m)}

（16）

P_{l c s} = \frac{L C S (R e f S u m, C r e S u m)}{l e n (C r e S u m)}

（17）

F_{l c s} = \frac{(1 + β^{2}) R_{l c s} P_{l c s}}{R_{l c s} + β^{2} P_{l c s}}

（18）

其中， $R e f S u m$ 表示参考摘要， $l e n (R e f S u m)$ 表示参考摘要的长度， $C r e S u m$ 表示生成摘要， $l e n (C r e S u m)$ 表示生成摘要的长度. $L C S (R e f S u m, C r e S u m)$ 表示参考摘要和生成摘要的最长公共子序列. $R_{l c s}$ 和 $P_{l c s}$ 分别表示计算所得的召回率和准确率， $F_{l c s}$ 即为Rouge⁃L的值.

3.4　实验结果与分析

3.4.1　不同方法的实验结果对比

选择七个模型作为基准模型，分别是Lead⁃1⁃First，TextRank，Pointer，RNN Context，Unlim，FAME和Tri⁃PCN.

（1） Lead⁃1⁃First：将输入文本开头的第一句话作为摘要输出.

（2） TextRank^［8］：利用相似度计算的方法对句子的重要性进行排序，选取排名最靠前的一个或者几个句子当作摘要.

（3） Pointer^［13］：在解码器增加了一个指针开关，缓解了词汇表大小导致的未登录词问题.

（4） RNN Context^［1］：编解码器采用GRU（Gate Recurrent Unit），对每个解码器的隐藏状态与编码器的每个隐藏状态进行注意力机制的计算，将计算结果作为上下文向量用于当前时刻解码器的输出.

（5） Unlim^［3］：在原有seq2seq（Sequence to Sequence）框架基础上，将编码端的Bi⁃LSTM（Bi⁃Directional Long Short⁃Term Memory）换为Bert（Bidirectional Encoder Representations from Transformers）编码.

（6） FAME^［4］：在基于Transformer的seq2seq基础上，引入主题词的信息，提升摘要的质量，该模型是本文的基准模型.

（7） Tri⁃PCN^［17］：使用Transformer模型在解码阶段提取多层次全局文本特征，在解码端利用指针网络的复读机制来保留关键的党建信息.

所有基准模型的训练集和测试集的划分均与DKCGS相同，均是先在THUCNews数据集上进行预训练并保留参数，然后在跨境民族文化文本摘要数据集上进行实验.将DKCGS与七个对比模型进行比较，具体的实验结果如表3所示，表中黑体字表示最优的性能.

表3 本文方法和七种对比算法的实验结果对比

Table 3 Experimental results of our model and other seven different methods

	模型名称	Rouge⁃1	Rouge⁃2	Rouge⁃L
抽取式方法	Lead⁃1⁃First	23.53	11.68	22.83
抽取式方法	TextRank	23.86	11.54	22.46
生成式方法	Pointer	24.64	12.71	23.36
	RNN Context	24.01	12.56	23.12
	Unlim	25.83	12.61	24.37
	FAME	25.67	12.96	24.64
	Tri⁃PCN	24.88	12.64	24.17
	DKCGS	26.62	13.63	25.41

由表可知，与抽取式方法相比，DKCGS在对原文语义理解的基础上生成的摘要质量更优，主要是因为本文使用的数据集中每篇文本的平均句子数为6~8，抽取式方法得到的句子数为2~3，所以抽取式方法得到的摘要信息较为冗杂.

与生成式方法相比，DKCGS的Rough比Pointer，RNN Context有较大提升，说明Transformer编码器对文档的编码能力优于Bi⁃LSTM和GRU编码器.与Unlim和FAME相比，Rouge也有提升，比FAME分别提升0.95，0.67和0.77，尤其是Rouge⁃1的提升效果明显.说明在编码端融入领域词典可以有效地学习跨境民族文化文本中的领域词汇知识，提升模型对领域词汇的表征效果；在解码器中利用领域词典引导指针生成网络，可以提高模型生成领域词汇的概率.

本文方法的实验结果同样也优于Tri⁃PCN，主要原因是Tri⁃PCN缺少对文本中领域信息的关注，使生成的摘要中出现错误的领域词汇，而本文方法在编码和解码过程中都融入了领域词典，有效提高了模型对领域词汇的表征能力.

3.4.2　领域词典不同词向量的表征实验

为了检验Word2vec对跨境民族文化领域词典编码的效果，分别使用Word2vec、GloVe、随机初始化三种领域词典编码的方式进行实验，具体实验结果如表4所示，表中黑体字表示最优的性能.

表4 不同词典编码方式的实验结果

Table 4 Experimental results with different dictionary encodings

词典编码方式	Rouge⁃1	Rouge⁃2	Rouge⁃L
随机初始化	22.57	11.43	21.11
GloVe	26.31	13.47	24.86
Word2vec	26.62	13.62	25.41

整体来看，模型参数随机初始化进行实验的效果相对较差，说明对词典编码的随机初始化不能使模型学习更充足的领域词汇知识；其次，Word2vec略优于GloVe编码的效果，原因是GloVe是基于全局词频统计的编码思想，主要捕捉单词之间的一些语义特性，而Word2vec是从词语所在的语境信息来得到编码并加和为一个总向量来表示，这样可以使模型更好地根据文本中领域词汇的上下文语境来增强词汇表征能力.所以，本文采用Word2vec的方式进行跨境民族文化领域词典的编码.

3.4.3　消融实验

为了验证跨境民族文化领域词典、预训练以及指针生成网络对文本摘要生成的效果，在THUCNews和跨境民族文化文本摘要数据集上进行消融实验.其中，Transformer指单独采用Transformer并只在跨境民族文化文本摘要数据集上进行训练的实验，该实验没有在THUCNews数据集上进行预训练，其他实验均在增加预训练的前提下进行实验.具体的实验结果如表5所示，表中黑体字表示最优的性能.

表5 消融实验的结果

Table 5 Experimental results of ablation

方法	Rouge⁃1	Rouge⁃2	Rouge⁃L
DKCGS	26.62	13.63	25.41
Transformer	13.56	7.02	11.22
Transformer+预训练	24.23	11.07	22.48
Transformer+预训练+领域词典	26.14	13.21	24.56

由表可见，使用Transformer的实验，Rouge指标远低于Transformer+预训练的方法，说明模型经过预训练后可以学习到更多的语义知识，更好地指导摘要生成.在编码端增加领域词典后，Rouge指标分别提升1.91，2.14和2.08，说明模型在解码时能更好地关注文本中的领域词汇，提高领域词汇在摘要中的生成概率.在解码端增加指针生成网络模块后，Rouge指标分别提升0.48，0.42和0.85，说明指针生成网络可以更好地将文本中出现的领域词汇与词典中的词进行筛选，将符合当前文本语义的领域词生成到摘要中，缓解未登录词问题和遗漏跨境民族文化领域词汇的问题.为了进一步证明本文方法的有效性，利用Koehn^［20］重采样方法进行显著性检验 $(P < 0.05)$ .

3.4.4　词典规模对实验结果的影响

为了验证本文算法的实验结果对领域词典规模的依赖程度，在不同规模大小的领域词典上进行实验，实验结果如表6所示，表中黑体字表示最优的性能.

表6 词典规模对本文模型性能的影响

Table 6 Influence of dictionary scale to our model

词典规模	Rouge⁃1	Rouge⁃2	Rouge⁃L
1000	24.35	11.37	22.54
1500	25.24	12.37	22.96
2000	25.67	12.72	23.98
2500	26.43	13.53	25.11
3000	26.62	13.62	25.40
3123	26.62	13.63	25.41

由表可知，Rouge指标随着词典规模的增大而增大，说明模型生成包含领域词汇的摘要对领域词典规模具有较强的依赖.当词典规模达到2500后，Rouge⁃1的增长趋于平缓，并且在词典规模达到3000后，其增长幅度趋近0.分析其原因是，领域词典规模达到3000后，其包含的词汇已经覆盖大多数跨境民族文化文本中出现的领域词汇，再增加词典规模，Rouge⁃1也不会大幅增长.综合上述实验结果，证明本文方法的实验结果对领域词典规模大小具有较强的依赖性.

3.4.5　实例分析

为了更直观地分析本文方法与基线模型在领域摘要生成的效果，对不同模型的摘要生成的样例进行对比分析，具体结果如图4所示，图中黑体字表示摘要中的领域词汇以及未登录词.由图可见，利用TextRank方法得到的摘要语义连贯，且摘要中没有出现错误的领域词汇，这是因为TextRank对文本中的句子进行相似度计算并根据得分高低进行排序，它不会改变原文的文字，但会因为多个语义相似句子而计算出高的分数，导致摘要中出现语句重复、摘要字数过长的问题.利用FAME方法生成的摘要出现将“谷仓”识别为“谷”的跨境民族文化领域词汇识别错误和“unk”问题，这是因为领域词汇在摘要数据集中出现的频率较低，Transformer不能很好地学习这些领域词汇的语义知识.本文方法生成的摘要与参考摘要最匹配，不仅关注了正文中的关键信息，还准确体现了跨境民族文化领域词汇的特征，说明本文方法可以生成语义比基线模型更合适的摘要.

图4

图4 不同对比模型生成摘要样例分析

Fig.4 Samples of summary generation by different models

4 结论

针对跨境民族文化文本摘要任务中领域词汇丢失的问题，本文提出一种融入领域知识的跨境民族文化生成式摘要方法.在编码端，通过增加跨境民族文化领域词典的方式，有效提高了输入文本中领域词汇的权重，帮助模型关注文本中的领域词；在解码端，通过融入跨境民族文化领域词典构建指针生成网络，将候选词分布与原文概率分布融合，有效提升了模型生成跨境民族文化领域词汇的概率.实验结果证明，提出的方法对于跨境民族文化领域的文本摘要任务有良好的效果.未来将进一步探索领域知识图谱在跨境民族文化文本摘要任务中的应用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

B T

， Chen

Q C

， Zhu

F Z

LCSTS：A large scale Chinese short text summarization dataset

∥Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon，Portugal：ACL，2015：1967-1972.

[2]

Vaswani

， Shazeer

， Parmar

，et al.

Attention is all you need

∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach，CA，USA：Curran Associates Inc.，2017：6000-6010.

[3]

Dong

， Yang

， Wang

W H

，et al.

Unified language model pre⁃training for natural language understanding and generation

∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver，Canada：Curran Associates Inc.，2019：13063-13075.

[4]

Aralikatte

， Narayan

， Maynez

，et al.

Focus attention：Promoting faithfulness and diversity in summarization

∥Proceedings of the 59^th Annual Meeting of the Association for Computational Linguistics，the 11th International Joint Conference on Natural Language Processing. Bangkok，Thailand：ACL，2021：6078-6095.

[本文引用: 3]

[5]

Zhu

J N

， Zhou

， Zhang

J J

，et al.

Attend，translate and summarize：An efficient method for neural cross⁃lingual summarization

∥Proceedings of the 58^th Annual Meeting of the Association for Computational Linguistics. Washington DC，WA，USA：ACL，2020：1309-1321.

[6]

Nallapati

， Zhou

B W

， Dos Santos

，et al.

Abstractive text summarization using sequence⁃to⁃sequence RNNs and beyond

∥Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin，Germany：Association for Computational Linguistics，2016：280-290.

[7]

Dou

Z Y

， Liu

P F

， Hayashi

，et al.

GSum：a general framework for guided neural abstractive summarization

∥Proceedings of 2021 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies. Online：Association for Computational Linguistics，2021：4830-4842.

[8]

Mihalcea

， Tarau

TextRank：bringing order into text

∥Proceedings of 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona，Spain：ACL，2004：404-411.

[9]

Liu

， Lapata

Text summarization with pretrained encoders

∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing，the 9th International Joint Conference on Natural Language Processing. Hong Kong，China：Association for Computational Linguistics，2019：3730-3740.

[10]

Zhou

Q Y

， Yang

， Wei

F R

，et al.

Selective encoding for abstractive sentence summarization

∥Proceedings of the 55^th Annual Meeting of the Association for Computational Linguistics. Volume 1：Long Papers. Vancouver，Canada：Association for Computational Linguistics，2017：1095-1104.

[11]

Rush

A M

， Chopra

， Weston

A neural attention model for abstractive sentence summarization

∥Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon，Portugal：Association for Computational Linguistics，2015：379-389.

[12]

Chopra

， Auli

， Rush

A M

Abstractive sentence summarization with attentive recurrent neural networks

∥Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies. San Diego，CA，USA：ACL，2016：93-98.

[13]

See

， Liu

P J

， Manning

C D

Get to the point：Summarization with pointer⁃generator networks

∥Proceedings of the 55^th Annual Meeting of the Association for Computational Linguistics. Volume 1. LongPapers. Vancouver，Canada：ACL，2017：1073-1083.

[14]

Manakul

， Gales

Long⁃span summarization via local attention and content selection

[15]

C L

， Xu

W R

， Li

，et al.

Guiding generation for abstractive text summarization based on key information guide network

∥Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies. Volume 2.PapersShort. New Orleans，LA，USA：Association for Computational Linguistics，2018：55-60.

[16]

Afzal

， Alam

， Malik

K M

，et al.

Clinical context⁃aware biomedical text summarization using deep neural network：Model development and validation

Journal of Medical Internet Research，2020，22(10)：e19810.

[17]

蔡中祥，孙建伟.

融合指针网络的新闻文本摘要模型

小型微型计算机系统，2021，42(3)：462-466.

Cai

Z X

， Sun

J W

News text summarization model integrating pointer network

Journal of Chinese Computer Systems，2021，42(3)：462-466.

[18]

Kingma

D P

， Ba

Adam：A method for stochastic optimization

∥Proceedings of the 3rd International Conference on Learning Representations. San Diego，CA，USA：ICLR，2015，arXiv：.

[19]

Lin

C Y

ROUGE：a package for automatic evaluation of summaries

∥Proceedings of the Text Summarization Branches Out. Barcelona，Spain：ACL，2004：74-81.

[20]

Koehn

Statistical significance tests for machine translation evaluation

∥Proceedings of 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona，Spain：ACL，2004：388-395.