A generative summary method of cross⁃border ethnic culture incorporating domain knowledge
Zhao Guanbo1,2,3, Zhang Yongbing,1,2,3, Mao Cunli1,2,3, Gao Shengxiang1,2,3, Wang Fengxiao1,2,3
1.South Asia and Southeast Asia Languages Voice Information Processing Engineering Research Center under the Ministry of Education,Kunming University of Science and Technology,Kunming,650500,China
2.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,650500,China
3.Yunnan Key Laboratoryof ArtificialIntelligence,Kunming University of Science and Technology,Kunming,650500,China
Generating summaries with domain knowledge from cross⁃border ethnic culture texts plays an important supporting role in further carrying out tasks such as cross⁃border ethnic culture text retrieval and question answering. Currently,generative text summarization based on deep learning has shown promising results. However,directly applying it to cross⁃border national cultural text summarization tasks may result in the omission of domain⁃specific words in the generated summary. Therefore,a Domain Knowledge⁃Culture⁃Generative Summary (DKCGS) method for cross⁃border ethnic culture summarization with Domain Knowledge is proposed. In the encoding end,the cross⁃border ethnic culture domain dictionary coding is integrated with the original text coding in order to enhance the representation ability of the model for domain words. At the decoder,the distribution of domain words with synonymous or cross⁃border relationships is combined with the distribution of the original text based on the pointer generation network to improve the accuracy of the model in generating cultural domain words. At the same time,it pre⁃trains and further initializes the parameters on the general domain text to alleviate the problem of poor model training effect caused by data scarcity. Experimental results show that the Rouge⁃1 of the proposed method is 0.95 higher than that of the baseline model on the cross⁃border ethnic text summarization dataset,which effectively improves the quality of cross⁃border ethnic culture text summarization generation.
(1)抽取式摘要方法:抽取式摘要通常利用不同的方法对原文句子进行评价,对每个句子赋予一定权重,选择原文最重要的句子来组成摘要.Mihalcea and Tarau[8]利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata[9]基于深度学习来建模文本中的句子,把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al[10]提出一种以子句作为抽取单元的抽取式摘要方法,在一定程度上减轻了摘要的冗余性和不必要性.
(2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题.
在面向特定领域的文本摘要研究方面,Afzal et al[16]通过引入医学领域实体信息来提高模型对文本编码的能力,指导医学文本摘要的生成.蔡中祥和孙建伟[17]针对党建新闻文本摘要生成领域,提出一种融合指针网络的自动文本摘要模型Tri⁃PCN,利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入,在一定程度上提高了模型生成摘要的质量.但是,将这些方法应用到跨境民族文化领域中,仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题.
(5) Unlim[3]:在原有seq2seq(Sequence to Sequence)框架基础上,将编码端的Bi⁃LSTM(Bi⁃Directional Long Short⁃Term Memory)换为Bert(Bidirectional Encoder Representations from Transformers)编码.
Abstractive text summarization using sequence⁃to⁃sequence RNNs and beyond
∥Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin,Germany:Association for Computational Linguistics,2016:280-290.
GSum:a general framework for guided neural abstractive summarization
∥Proceedings of 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Online:Association for Computational Linguistics,2021:4830-4842.
∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing,the 9th International Joint Conference on Natural Language Processing. Hong Kong,China:Association for Computational Linguistics,2019:3730-3740.
A neural attention model for abstractive sentence summarization
∥Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon,Portugal:Association for Computational Linguistics,2015:379-389.
Abstractive sentence summarization with attentive recurrent neural networks
∥Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego,CA,USA:ACL,2016:93-98.
Guiding generation for abstractive text summarization based on key information guide network
∥Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Volume2.PapersShort. New Orleans,LA,USA:Association for Computational Linguistics,2018:55-60.
... (5) Unlim[3]:在原有seq2seq(Sequence to Sequence)框架基础上,将编码端的Bi⁃LSTM(Bi⁃Directional Long Short⁃Term Memory)换为Bert(Bidirectional Encoder Representations from Transformers)编码. ...
Focus attention:Promoting faithfulness and diversity in summarization
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
TextRank:bringing order into text
2
2004
... (1)抽取式摘要方法:抽取式摘要通常利用不同的方法对原文句子进行评价,对每个句子赋予一定权重,选择原文最重要的句子来组成摘要.Mihalcea and Tarau[8]利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata[9]基于深度学习来建模文本中的句子,把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al[10]提出一种以子句作为抽取单元的抽取式摘要方法,在一定程度上减轻了摘要的冗余性和不必要性. ...
... (1)抽取式摘要方法:抽取式摘要通常利用不同的方法对原文句子进行评价,对每个句子赋予一定权重,选择原文最重要的句子来组成摘要.Mihalcea and Tarau[8]利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata[9]基于深度学习来建模文本中的句子,把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al[10]提出一种以子句作为抽取单元的抽取式摘要方法,在一定程度上减轻了摘要的冗余性和不必要性. ...
Selective encoding for abstractive sentence summarization
1
1
... (1)抽取式摘要方法:抽取式摘要通常利用不同的方法对原文句子进行评价,对每个句子赋予一定权重,选择原文最重要的句子来组成摘要.Mihalcea and Tarau[8]利用相似度计算的方法对句子的重要性进行排序,选取排名最靠前的一个或几个句子作为摘要.Liu and Lapata[9]基于深度学习来建模文本中的句子,把抽取式摘要建模为序列标注任务和句子排序任务.Zhou et al[10]提出一种以子句作为抽取单元的抽取式摘要方法,在一定程度上减轻了摘要的冗余性和不必要性. ...
A neural attention model for abstractive sentence summarization
1
2015
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
Abstractive sentence summarization with attentive recurrent neural networks
1
2016
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
Get to the point:Summarization with pointer?generator networks
2
2017
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
Long?span summarization via local attention and content selection
1
2021
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
Guiding generation for abstractive text summarization based on key information guide network
1
2018
... (2)生成式摘要方法:生成式摘要是在对原文档进行语义理解的基础上生成摘要,摘要内容更凝练和简洁.Rush et al[11]在大量的新闻文档及标题上训练基于注意力的神经网络模型,Chopra et al[12]在此基础上增加了输入序列的位置信息,得到了效果更佳的模型.See et al[13]将指针生成网络引入序列到序列的模型,缓解了未登录词和摘要句重复的问题.Aralikatte et al[4]引入文本主题信息来引导摘要生成,在全文理解的基础上生成摘要.Dou et al[7]引入不同种类的外部知识来引导摘要生成,在全文理解的基础上生成摘要.Manakul and Gales[14]扩展了大规模预训练模型,提出使用局部自注意力的方式来缓解长距离依赖的问题.尽管基于数据驱动的序列到序列摘要模型取得了较好的效果[15],但直接用于特定领域的文本摘要任务时,由于没有领域知识作为先验知识,生成的摘要存在领域词汇丢失的问题. ...
Clinical context?aware biomedical text summarization using deep neural network:Model development and validation
1
2020
... 在面向特定领域的文本摘要研究方面,Afzal et al[16]通过引入医学领域实体信息来提高模型对文本编码的能力,指导医学文本摘要的生成.蔡中祥和孙建伟[17]针对党建新闻文本摘要生成领域,提出一种融合指针网络的自动文本摘要模型Tri⁃PCN,利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入,在一定程度上提高了模型生成摘要的质量.但是,将这些方法应用到跨境民族文化领域中,仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题. ...
融合指针网络的新闻文本摘要模型
2
2021
... 在面向特定领域的文本摘要研究方面,Afzal et al[16]通过引入医学领域实体信息来提高模型对文本编码的能力,指导医学文本摘要的生成.蔡中祥和孙建伟[17]针对党建新闻文本摘要生成领域,提出一种融合指针网络的自动文本摘要模型Tri⁃PCN,利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入,在一定程度上提高了模型生成摘要的质量.但是,将这些方法应用到跨境民族文化领域中,仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题. ...
News text summarization model integrating pointer network
2
2021
... 在面向特定领域的文本摘要研究方面,Afzal et al[16]通过引入医学领域实体信息来提高模型对文本编码的能力,指导医学文本摘要的生成.蔡中祥和孙建伟[17]针对党建新闻文本摘要生成领域,提出一种融合指针网络的自动文本摘要模型Tri⁃PCN,利用指针网络的复读机制来保留关键的党建信息.这些方法主要通过在编码端融入领域实体、案件要素等方式来加强对领域知识的融入,在一定程度上提高了模型生成摘要的质量.但是,将这些方法应用到跨境民族文化领域中,仍存在领域词汇信息编码能力较差导致摘要出现领域词汇生成错误的问题. ...