基于领域知识图谱和对比学习的汉越跨境民族文本检索方法
1.
2.
3.
A Chinese⁃Vietnamese cross⁃border ethnic text retrieval method based on domain knowledge graph
1.
2.
3.
通讯作者:
收稿日期: 2023-05-24
基金资助: |
|
Received: 2023-05-24
关键词:
Keywords:
本文引用格式
刘思源, 毛存礼, 张勇丙.
Liu Siyuan, Mao Cunli, Zhang Yongbing.
跨境民族指居住地“跨越”了国境线但又保留原来共同的某些民族特色、彼此之间有同一民族认同感的民族.汉越跨境民族文本检索任务是指以一种语言作为问题查询,在大规模跨境民族文档集合中检索出另一语言的文档的工作,对汉越跨境民族热点事件发现、跨语言问答工作的开展具有重要的支撑作用.因此,汉越跨境民族文本检索研究工作具有重要的意义.
然而,在汉越跨境民族领域中存在大量不常见的领域实体、实体的表达形式多样以及汉越领域实体缺失等问题,如表1所示,中文查询中有两个关键词“楞贺桑勘”和“傣族(người Dai)”(见表中的黑体字).在中文跨境民族中的“泼水节”“楞贺桑勘”“桑勘比迈”与越南语跨境民族中的Lễ hội tắm Phật(浴佛节)、Songkran(宋干节)都是表达泼水节节日活动,而“楞贺桑勘”和“桑勘比迈”是比较特殊的领域实体,在越南语中没有对应的越南语实体.另外,在跨境民族中,“傣族(người Dai)”与“掸族(Người Shan)”“佬族(Người Lao)”“泰族(Người Tay)”等都表达相同含义的民族,但民族名称表达形式多样.以上这些问题凸显了汉越跨境民族的领域特性,而且在汉越跨境民族文本检索中,还面临领域词对齐困难和语义对齐困难的问题.当前通用的跨语言文本检索模型无法解决这些问题,导致通用模型无法精准地检索相应的跨境民族文档.
表1 汉越跨境民族文本检索数据样例
Table 1
编号 | 检索:傣族的楞贺桑勘 |
---|---|
1 | Lễ hội té nước là lễ hội quốc gia trang trọng và có tầm ảnh hưởng lớn nhất của người dân người Dai ... |
2 | Lễ hội té nước Người Dai phổ biến ở Yunnan Dehong,Xishuangbanna và những nơi khác... |
3 | Lễ hội té nước thể hiện nét văn hóa truyền thống của Người Dai như văn hóa sông nước... |
针对以上问题,本文改进了Izacard et al[1]的mContriever方法,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先,利用汉越跨境民族知识图谱扩充查询和文档中的实体表征并融合在查询和文档中;然后,利用多头注意力机制来实现丰富查询文档相关的汉越跨境民族实体信息;最后,基于对比学习的方法,将融合跨境民族实体后的查询和文档表征对齐在同一空间下并计算相关性得分.
本文的主要贡献:
(1)通过融入汉越跨境民族领域知识图谱来扩充查询和文档中的实体表征,缓解不常见的领域实体以及实体表达形式多样问题.
(2)引入对比学习方法,实现汉越跨境民族查询文档中的领域词表征以及汉越两种语言语义表征对齐.
(3)利用查询和文档融合机制自适应地将汉越跨境民族领域知识图谱融合在查询文档中,丰富跨境民族领域相关语义信息.
1 相关工作
跨语言文本检索是在大规模目标语言文本集合中查找相关文档来回答特定查询的任务,其核心在于学习查询和文档之间的潜在语义特征以及度量特征之间的相似性.通用的跨语言检索模型在通用领域中得到了很好的应用,主要分两大类:传统的跨语言文本匹配方法和基于深度学习的跨语言文本检索方法.
传统的跨语言文本检索方法借助翻译手段,对查询词或待检索文档进行翻译后再进行单语检索.查询翻译方法,如Gao et al[2]对查询文本进行翻译,将其转换为待查询文档语种,再通过单一语言的信息检索技术实现跨语言信息检索.文档翻译方法对待查询文档进行翻译,将其转换为查询文本语种,再通过单一语言的信息检索技术检索文档.中间语言翻译方法,如黄国斌等[3]在进行跨语言信息检索之前,将所有查询文本和待查询文档翻译为同一种中间语言,通过单一语言的信息检索技术,对中间语言查询文本进行信息检索.然而,基于翻译的方法的性能受到机器翻译质量的限制,需要处理翻译歧义等问题,如Xu and Weischedel[4]提出一种基于双语词典的方法来解决翻译歧义问题.基于翻译的方法主要针对通用语种,而越南语属于低资源语言,和通用语种相比(如英语、中文)存在较大差异,基于翻译的方法在汉越跨境民族领域中不准确,这些检索方法不适用.
当前,基于深度学习的跨语言检索方法在跨语言信息检索中得到了广泛的应用,不需要翻译即可直接处理跨语言信息检索任务的语义对齐方法受到了广泛关注,使用基于神经网络的跨语言词嵌入方法将查询和文档对齐到同一空间中,并在对齐的空间中执行查询文档匹配.2013年Huang et al[5]提出一个深度词袋模型,通过点积查询表示与文档表示来获得相关性分数.Shen et al[6](2014年)和Palangi et al[7](2016年)分别使用卷积神经网络和递归神经网络替换词袋模型来改进该方法.随着语言模型在自然语言中得到广泛应用,越来越多的跨语言文本检索技术使用了多语言模型,如Pires et al[8]利用多语言版本BERT及Conneau and Lample[9]提出跨语言模型XLM来执行跨语言检索任务,已成为跨语言信息检索领域的主流方法.
综上,使用多语言预训练方法可以提高跨语言文本检索的准确性,通用的跨语言信息检索方法也取得了不错的效果.但在汉越跨境民族领域中存在大量不常见的领域实体,且实体表达形式多样,通用的跨语言信息检索模型无法有效检索相关的领域实体,因此不适用于领域类的汉越跨境民族文本检索任务.本文通过融入汉越跨境民族领域知识图谱的方法,可以有效地缓解跨境民族文化领域中存在的问题.
2 汉越跨境民族知识图谱
当前通用领域的知识图谱和跨境民族知识图谱的差异较大,无法直接用于汉越跨境民族文本检索任务.因此,本文对已有的中文跨境民族知识图谱进行扩充,已有的中文跨境民族知识图谱包含傣族、泰族、佬族、掸族、阿萨姆族和彝族六个民族,每个民族都包括宗教、建筑、饮食、习俗、服饰和艺术六个类别.中文跨境民族实体的属性包含名称、别称、描述内容等,如实体“坛坛酒”的实体别称为“咂酒”,实体描述内容为“傣族饮品”.
表2 扩充后的汉越跨境民族知识三元组的数量
Table 2
类别 | 中文知识三元组 | 越南语知识三元组 |
---|---|---|
宗教文化 | 718 | 568 |
建筑文化 | 491 | 402 |
服饰文化 | 623 | 538 |
饮食文化 | 558 | 444 |
艺术文化 | 488 | 376 |
习俗文化 | 646 | 350 |
共计 | 3524 | 2678 |
3 基于对比学习的汉越查询和文档对齐方法
对比学习是一种依赖每个文档在某种程度上都是独一无二的事实的方法,本文采用对比学习[1]的方法来训练跨语言查询文档,使其对齐到同一空间中.通过对比损失来学习区分文档,这种损失比较正(来自同一文档)或负(来自不同文档)文档表示对,通过构建正负样本对可以使模型更好地学习目标类别的特征表示.将正样本与负样本进行比较,使模型能够学习区分目标类别与其他类别的决策边界,这有助于提高模型在未见过的数据上的泛化能力.
3.1 对比学习中正负样本对构建
表3 汉越跨境民族文化正负样本示例
Table 3
中文文本 | 越南语文本 | 类型 |
---|---|---|
傣族人在泼水节期间看龙舟赛. | Người Dai xem đua thuyền rồng trong Lễ hội té nước. | 原数据 |
傣族人看龙舟比赛. | Người Dai có thuyền rồng trong Lễ hội Songkran. | 正样本 |
傣族人在火把节期间看龙舟赛. | Người Dai xứ Đài xem đua thuyền rồng trong Lễ hội đuốc. | 负样本 |
3.2 对比学习正样本构建
2019年Lee et al[13]提出逆完形填空任务是一种数据增强,可生成文档的两个互斥视图,第一个视图通过从一段文本中随机采样一个段落范围获得,而该范围的补码形成第二个视图.具体地,给定一个序列文本
3.3 对比学习负样本构建
构建负样本和构建正样本逆完形填空任务相似,只不过是把截取文本段落替换为其他文本,比如,对一个序列文本
4 基于领域知识图谱和对比学习的汉越跨境民族文本检索方法
4.1 模型框架
该模型主要由汉越跨境民族查询和文档表征层、汉越跨境民族查询和文档实体扩展层、汉越跨境民族查询和文档特征融合层、汉越跨境民族对比学习层及相关性分数计算五部分构成,模型结构如图1所示.
图1
图1
基于领域知识图谱和对比学习的汉越跨境民族文本检索方法
Fig.1
Chinese⁃Vietnamese cross⁃border ethnic text retrieval method based on domain knowledge graph and comparative learning
4.2 汉越跨境民族查询文档向量表征
该层采用XLM⁃R语言模型对跨境民族查询和文档进行向量表征,查询和文档实现了动态表征向量.汉越跨境民族查询和文档分别视为序列
其中,
4.3 基于知识图谱的汉越查询和文档扩展
图2
图2
汉越跨境民族知识图谱嵌入的模型
Fig.2
Embedding model diagram of Chinese⁃Vietna⁃mese cross⁃border ethnic knowledge map
扩展出的实体由很多个词集合构成,词之间没有任何关系,使用XLM⁃R语言模型静态表征.将查询与知识图谱扩展的实体视为一个词序列集合
其中,
4.4 汉越跨境民族查询文档特征融合
该层将查询和文档中的向量分别与知识图谱扩展的实体集合向量拼接,得到融合后的表征向量.具体地,查询向量
其中,
另外,本文引入2017年Vaswani et al[16]提出的多头注意力机制,将融合汉越跨境民族领域实体的查询和文档向量作为输入,通过多头注意力机制进行特征编码,丰富查询和文档之间跨境民族相关的语义信息,为下一步输入对比学习层中更好地对齐表征在同一空间作铺垫.如
其中,
4.5 对比损失层
该层将汉越跨境民族查询和文档数据表征对齐到同一空间,利用对比学习的思想将相同类型的查询和文档聚类在一起.给定一个带有相关正文档
其中,
4.6 汉越跨境民族查询和文档相关性分数计算
分数
其中,
5 实验分析
5.1 汉越跨境民族文本检索数据集
参照CCNet的公共数据集格式,人工构建汉越跨境民族数据集.使用爬虫技术,在维基百科和汉越跨境民族相关网站获取跨境民族数据,并进行过滤特殊字符等预处理操作,如去除空格、乱码、表情符号以及公式符号等.
处理后的汉越跨境民族傣族、掸族、泰族、佬族、阿萨姆族、彝族等六个民族,有宗教、建筑、节日、饮食、习俗和文艺等六种类型的数据.其中,中文跨境民族文化数据爬取了135572条,越南语跨境民族文化数据爬取了109048条.数据样本的规模分布如图3所示.此外,汉越跨境民族文本检索查询⁃文档对训练集分别包含109572条和85148条句子,汉越跨境民族文本检索查询⁃文档对测试集包含26000条和23900条句子.
图3
图3
汉越跨民族文化数据集的分布样例
Fig.3
Sample distribution of Chinese⁃Vietnamese cross⁃border ethnic culture dataset
5.2 实验参数设置
使用AdamW优化器,通过不断地调节实验参数获得最优的跨语言文本检索模型,并确保模型在参数最优的情况下进行训练.具体的参数设置如表4所示.
表4 实验中本文模型的参数设置
Table 4
Object | Number |
---|---|
queue of size | 23768 |
temperature | 0.05 |
momentum | 0.999 |
learning rate | 0.00005 |
ratio_max | 0.5 |
ratio_min | 0.1 |
5.3 实验评价指标
采用国际通用的搜索算法平均倒数排名(Mean Reciprocal Rank,MRR)对提出的模型进行评估,MRR的计算如
其中,
5.4 实验结果与分析
5.4.1 实验1:基线模型对比实验
为了验证本文方法的有效性,将提出的模型与最近四年的方法做对比实验,为公平起见,各个方法都使用了汉越跨境民族数据集,结果取100次实验的平均值.
(1)UnsupCLIR模型:2018年Litschko et al[17]提出的一种基于共享的跨语言词嵌入空间的无监督方法.
(2)Wasserstein模型:2018年Balikas et al[18]提出的一种基于距离来衡量文本段落之间差异的方法.
(3)EncoderCLIR模型:2021年Litschko et al[19]提出的一种基于多语言编码器的文本排序模型.
(4)mDPR模型:2021年Asai et al[20]提出的基于双编码器的查询文档对相关性计算模型.
表5给出了本文模型与其他模型的召回率和平均倒数排名,表中黑体字表示性能最优.由表可见,本文模型与其他四个模型相比,召回率最佳,MRR分别提升26.6%,20.1%,12.8%和7.9%.UnsupCLIR模型利用共享的跨语言词嵌入空间来直接计算查询和文档中单词的语义相似度,效果较差,因为依赖单词级和文档级对齐而诱导的跨语言嵌入影响了模型检索的效果.Wasserstein模型提出了一种新的矩阵来测量文本段落之间的差异,但没有考虑跨语言词语与文本特征之间的交互,故检索效果也欠佳.
表5 本文模型和其他模型的对比实验结果
Table 5
模型名称 | Recall @ 100 | MRR @ 100 |
---|---|---|
本文方法 | 0.909 | 0.658 |
UnsupCLIR | 0.752 | 0.392 |
Wasserstein | 0.813 | 0.457 |
EncoderCLIRmBERT | 0.859 | 0.524 |
mDPR | 0.884 | 0.579 |
值得注意的是,和其他的基线模型相比,EncoderCLIRmBERT和mDPR模型表现出较好的检索性能,这是因为EncoderCLIRmBERT模型通过多语言模型单独编码每个词汇术语来诱导并引入静态嵌入空间,再为特定的语言对细化双语空间,所以能更好地捕获查询和文档之间的关联关系.mDPR模型分别对查询和文档进行单独编码,基于神经网络的密集检索器很好地替代了基于词频的经典稀疏方法,使模型的检索效果更好.这两个算法的性能弱于本文模型的原因在于本文融入了汉越跨境民族知识图谱来增强查询和文档数据的“跨境”关联关系,也从侧面反映了本文模型融入汉越领域知识图谱能提升检索效果这一观点的正确性.
5.4.2 实验二:消融实验结果对比
表6 消融实验的结果
Table 6
模型名称 | Recall @ 100 | MRR @100 |
---|---|---|
本文模型 | 0.909 | 0.658 |
mContrievermBERT | 0.878 | 0.594 |
mContrieverXLM⁃R | 0.887 | 0.617 |
mContrieverXLM⁃独立剪裁 (对比学习) | 0.889 | 0.645 |
mContrieverXLM⁃span (对比学习) | 0.894 | 0.651 |
mContrieverXLM⁃two_view (对比学习) | 0.898 | 0.656 |
由表可见,Baseline使用XLM⁃R语言模型的性能明显高于使用mBERT语言模型,而本文方法与Baseline相比,提高了4.1%.这是因为在汉越跨境民族查询和文档数据中存在大量不常见的领域实体以及实体表达形式多样化的问题,本文通过多头注意力将汉越跨境民族知识图谱自适应地融入查询和文档,增强了汉越跨境民族领域实体语义信息,有利于模型更好地捕获文本数据中“跨境”领域文本的关联关系,提升模型检索的性能.此外,为了验证本文中不同正负例对比样本构建方法的有效性,进行了三类正负样本的消融实验.实验结果显示,分别去除每一类对比学习方法后,模型效果均有下降,进一步验证了对比学习方法对模型效果的影响.同时,去除独立剪裁一类方法后,模型的性能下降最明显,表明独立剪裁方法构建的正负样本质量比其他两种方法更好,对模型性能有更大的影响.
5.4.3 实验三:不同多语言模型实验结果对比
为了验证使用不同多语言模型对本文模型性能的影响,进行了三个实验,使用三种不同的多语言模型为汉越跨境民族查询和文档数据做语义表征,其他层都保持不变.实验结果如表7所示,表中黑体字表示性能最优.由表可见,使用XLM⁃R语言模型时,本文模型的性能最佳,主要是因为XLM⁃R语言模型在低资源语言上的表现特别好,使汉越跨境民族查询文档数据的语义表征更准确,所以本文模型可以更好地捕获汉越跨境民族文本数据特征.
表7 不同多语言模型的实验结果
Table 7
模型名称 | Recall @ 100 | MRR @ 100 |
---|---|---|
本文模型(XLM⁃R) | 0.909 | 0.658 |
本文模型(mBERT) | 0.884 | 0.625 |
本文模型(XLM) | 0.895 | 0.631 |
5.4.4 实验四:不同动量值对于模型性能的影响
为了验证使用不同的动量参数对本文模型性能的影响,进行第四个实验,实验结果如表8所示,表中黑体字表示性能最优.由表可见,当动量参数为0.999时,模型的性能最优,小于这个阈值时,模型性能逐渐下降,这是因为动量参数越小,编码器更新越快,导致模型性能下降,所以实验中设置动量参数为0.999.
表8 本文模型使用不同动量值的性能
Table 8
模型名称 | Recall @ 100 | MRR @ 100 |
---|---|---|
Momentum=0.995 | 0.887 | 0.574 |
Momentum=0.996 | 0.892 | 0.60.3 |
Momentum=0.997 | 0.899 | 0.629 |
Momentum=0.998 | 0.901 | 0.641 |
Momentum=0.999 | 0.909 | 0.658 |
5.5 案例分析
表9左边是中文检索越南语的检索效果,检索文本包括“người Tay(泰族)”“Songkran(宋干节)”“Người Shan(掸族)”“Lễ hội tắm Phật(浴佛节)”等;右边是越南语检索中文的检索效果,检索文本包括“泰族”“宋干节”“掸族”“浴佛节”“桑勘比迈”“楞贺桑勘”等.由表可见,融合领域知识图谱显著提升了汉越跨境民族文化文本检索效果(见表中的黑体字).证明本文通过融入汉越领域知识图谱的汉越跨境民族文本检索模型,能有效地捕获查询和文档之间“跨境”的关联关系,提高了文本检索的效果.
表9 实例分析
Table 9
Query查询文本:傣族泼水节 | Query查询文本:Lễ hội té nước Dai |
---|---|
1.Đây là hình thức biểu diễn không thể thiếu trong Lễ hội Songkran của người Tay. | 1.傣族泼水节,傣语称桑勘比迈或楞贺桑勘,时间在傣历6月下旬或7月初(公历4月中旬). |
2.Người Shan gọi "Lễ hội tắm Phật" là "Bimai", có nghĩa là năm mới. | 2.每逢泰族宋干节,人们开始互相泼,你泼我,我泼你,一朵花在空中绽放,象征吉祥、幸福、健康. |
3.Lễ hội té nước là chữ viết dân tộc nhất của người Dai. | 3.宋干节是泰国泰族、缅甸掸族、老挝佬族以及中国傣族的传统节日. |
4.Lễ hội té nước chỉ được tổ chức ở những làng người Dai theo đạo Phật Nam tông. | 4.掸族最隆重的节日是浴佛节,也称“宋干节”,掸族都会在浴佛节期间举办一定规模的庆祝活动. |
6 结论
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,针对其中的问题,如存在大量罕见的领域实体、实体表达多样以及跨语言实体存在缺失等,本文提出基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.该方法利用多头注意力机制,将汉越跨境民族领域知识图谱融入查询和文档中,丰富查询和文档中不常见的跨境民族领域实体信息.同时,本文通过引入对比学习来解决跨语言领域词和语义表征对齐困难问题.
大量的实验证明,本文提出的跨语言检索方法在跨境民族文化实验数据集上取得了比基线模型更好的检索性能.
参考文献
Unsupervised dense information retrieval with contrastive learning
Improving query translation for cross⁃language information retrieval using statistical models
∥
一种新的基于中间语义的跨语言信息检索模型
,
A novel cross language information retrievai model based on interlingua semantics
,
Cross⁃lingual information retrieval using hidden Markov models
∥
Learning deep structured semantic models for web search using clickthrough data
∥
Learning semantic representations using convolutional neural networks for web search
∥
Deep sentence embedding using long short⁃term memory networks:Analysis and application to information retrieval
,
How multilingual is multilingual BERT?
∥.
Cross⁃lingual language model pretraining
∥
融合领域知识图谱的跨境民族文化分类
,
Cross⁃border ethnic cultural classification integrating domain knowledge map
,
Unsupervised feature learning via non⁃parametric instance discrimination
∥
A simple framework for contrastive learning of visual representations
∥
Latent retrieval for weakly supervised open domain question answering
∥.
Multilingual knowledge graph embeddings for cross⁃lingual knowledge alignment
∥
融入词集合信息的跨境民族文化实体识别方法
,
Cross⁃border national cultural entity recognition method with word set information
,
Attention is all you need
∥
Unsupervised cross⁃lingual information retrieval using monolingual data only
∥
Cross⁃lingual document retrieval using regularized Wasserstein distance
∥
On cross⁃lingual retrieval with multilingual text encoders
,
One question answering model for many languages with cross⁃lingual dense passage retrieval
∥
/
〈 | 〉 |