基于领域知识图谱和对比学习的汉越跨境民族文本检索方法

doi:10.13232/j.cnki.jnju.2023.04.008

基于领域知识图谱和对比学习的汉越跨境民族文本检索方法

刘思源¹^,²^,³, 毛存礼¹^,²^,³, 张勇丙^,¹^,²^,³

1.南亚东南亚语言语音信息处理教育部工程研究中心, 昆明, 650000

2.昆明理工大学信息与自动化学院, 昆明, 650000

3.云南省人工智能重点实验室, 昆明理工大学, 昆明, 650000

A Chinese⁃Vietnamese cross⁃border ethnic text retrieval method based on domain knowledge graph

Liu Siyuan¹^,²^,³, Mao Cunli¹^,²^,³, Zhang Yongbing^,¹^,²^,³

1.South Asia and Southeast Asia Languages Voice Information Processing Engineering Research Center under the Ministry of Education，Kunming，650000，China

2.School of Information and Automation, Kunming University of Science and Technology，Kunming，650000，China

3.Key Laboratory of Artificial Intelligence in Yunnan Province，Kunming University of Science and Technology，Kunming，650000，China

通讯作者: E⁃mail：zhangyongbing419@163.com

收稿日期: 2023-05-24

基金资助:

国家自然科学基金. 62166023. 61866019
云南省自然科学基金重点项目. 2019FA023

Received: 2023-05-24

摘要

汉越跨境民族文本检索是一类面向领域的跨语言检索任务，旨在以一种语言作为问题查询，检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体，实体表达形式多样，且中文和越南语两种语言领域实体没有直接对应关系，导致跨语言领域词对齐和语义对齐困难，进而影响汉越跨境民族文本检索模型性能.基于此，提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先，利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档，丰富查询和文档中不常见的跨境民族领域实体信息；然后，引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题；最后，将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明，提出的方法和基线模型相比，性能提高了4.1%.

关键词： 跨境民族文化 ; 跨境民族知识图谱 ; 跨语言检索 ; 对比学习 ; 信息检索

Abstract

Chinese⁃Vietnamese cross⁃border ethnic text retrieval is a type of domain⁃oriented cross⁃language retrieval task，which aims to use one language as a query to retrieve cross⁃border ethnic documents such as ethnicity，religion，and cultural customs corresponding to another language. However，in the Chinese⁃Vietnamese cross⁃border ethnic text retrieval task，there are a large number of uncommon domain entities with various expressions，and there is no direct correspondence between Chinese and Vietnamese language domain entities，which leads to difficulties in word alignment and semantic alignment in cross⁃language domains，and in turn affects the performance of the Chinese⁃Vietnamese cross⁃border ethnic text retrieval model. Based on this，this paper proposes a Chinese⁃Vietnamese cross⁃border ethnic text retrieval method that integrates domain knowledge graphs. First，the multi⁃head attention mechanism is used to integrate the Han⁃Vietnamese cross⁃border ethnic domain knowledge graph into queries and documents，enriching the uncommon cross⁃border ethnic domain entity information in queries and documents. Then，contrastive learning is introduced to address the difficult problem of aligning semantic representations of cross⁃lingual queries and documents. Finally，the similarity between the query and document representation incorporated into the knowledge graph is calculated as a relevance score. Experiments show that the proposed method outperforms the baseline model by 4.1%.

Keywords： cross⁃border national culture ; Cross⁃border ethnic knowledge map ; cross⁃language search ; Contrastive learning ; information retrieval

PDF (1013KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘思源, 毛存礼, 张勇丙. 基于领域知识图谱和对比学习的汉越跨境民族文本检索方法. 南京大学学报（自然科学）[J], 2023, 59(4): 610-619 doi:10.13232/j.cnki.jnju.2023.04.008

Liu Siyuan, Mao Cunli, Zhang Yongbing. A Chinese⁃Vietnamese cross⁃border ethnic text retrieval method based on domain knowledge graph. Journal of nanjing University[J], 2023, 59(4): 610-619 doi:10.13232/j.cnki.jnju.2023.04.008

跨境民族指居住地“跨越”了国境线但又保留原来共同的某些民族特色、彼此之间有同一民族认同感的民族.汉越跨境民族文本检索任务是指以一种语言作为问题查询，在大规模跨境民族文档集合中检索出另一语言的文档的工作，对汉越跨境民族热点事件发现、跨语言问答工作的开展具有重要的支撑作用.因此，汉越跨境民族文本检索研究工作具有重要的意义.

然而，在汉越跨境民族领域中存在大量不常见的领域实体、实体的表达形式多样以及汉越领域实体缺失等问题，如表1所示，中文查询中有两个关键词“楞贺桑勘”和“傣族（người Dai）”（见表中的黑体字）.在中文跨境民族中的“泼水节”“楞贺桑勘”“桑勘比迈”与越南语跨境民族中的Lễ hội tắm Phật（浴佛节）、Songkran（宋干节）都是表达泼水节节日活动，而“楞贺桑勘”和“桑勘比迈”是比较特殊的领域实体，在越南语中没有对应的越南语实体.另外，在跨境民族中，“傣族（người Dai）”与“掸族（Người Shan）”“佬族（Người Lao）”“泰族（Người Tay）”等都表达相同含义的民族，但民族名称表达形式多样.以上这些问题凸显了汉越跨境民族的领域特性，而且在汉越跨境民族文本检索中，还面临领域词对齐困难和语义对齐困难的问题.当前通用的跨语言文本检索模型无法解决这些问题，导致通用模型无法精准地检索相应的跨境民族文档.

表1 汉越跨境民族文本检索数据样例

Table 1 An example of Chinese⁃Vietnamese cross⁃border ethnic text retrieval data

编号	检索：傣族的楞贺桑勘
1	Lễ hội té nước là lễ hội quốc gia trang trọng và có tầm ảnh hưởng lớn nhất của người dân người Dai ...
2	Lễ hội té nước Người Dai phổ biến ở Yunnan Dehong，Xishuangbanna và những nơi khác...
3	Lễ hội té nước thể hiện nét văn hóa truyền thống của Người Dai như văn hóa sông nước...

新窗口打开| 下载CSV

针对以上问题，本文改进了Izacard et al^［1］的mContriever方法，提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先，利用汉越跨境民族知识图谱扩充查询和文档中的实体表征并融合在查询和文档中；然后，利用多头注意力机制来实现丰富查询文档相关的汉越跨境民族实体信息；最后，基于对比学习的方法，将融合跨境民族实体后的查询和文档表征对齐在同一空间下并计算相关性得分.

本文的主要贡献：

（1）通过融入汉越跨境民族领域知识图谱来扩充查询和文档中的实体表征，缓解不常见的领域实体以及实体表达形式多样问题.

（2）引入对比学习方法，实现汉越跨境民族查询文档中的领域词表征以及汉越两种语言语义表征对齐.

（3）利用查询和文档融合机制自适应地将汉越跨境民族领域知识图谱融合在查询文档中，丰富跨境民族领域相关语义信息.

1 相关工作

跨语言文本检索是在大规模目标语言文本集合中查找相关文档来回答特定查询的任务，其核心在于学习查询和文档之间的潜在语义特征以及度量特征之间的相似性.通用的跨语言检索模型在通用领域中得到了很好的应用，主要分两大类：传统的跨语言文本匹配方法和基于深度学习的跨语言文本检索方法.

传统的跨语言文本检索方法借助翻译手段，对查询词或待检索文档进行翻译后再进行单语检索.查询翻译方法，如Gao et al^［2］对查询文本进行翻译，将其转换为待查询文档语种，再通过单一语言的信息检索技术实现跨语言信息检索.文档翻译方法对待查询文档进行翻译，将其转换为查询文本语种，再通过单一语言的信息检索技术检索文档.中间语言翻译方法，如黄国斌等^［3］在进行跨语言信息检索之前，将所有查询文本和待查询文档翻译为同一种中间语言，通过单一语言的信息检索技术，对中间语言查询文本进行信息检索.然而，基于翻译的方法的性能受到机器翻译质量的限制，需要处理翻译歧义等问题，如Xu and Weischedel^［4］提出一种基于双语词典的方法来解决翻译歧义问题.基于翻译的方法主要针对通用语种，而越南语属于低资源语言，和通用语种相比（如英语、中文）存在较大差异，基于翻译的方法在汉越跨境民族领域中不准确，这些检索方法不适用.

当前，基于深度学习的跨语言检索方法在跨语言信息检索中得到了广泛的应用，不需要翻译即可直接处理跨语言信息检索任务的语义对齐方法受到了广泛关注，使用基于神经网络的跨语言词嵌入方法将查询和文档对齐到同一空间中，并在对齐的空间中执行查询文档匹配.2013年Huang et al^［5］提出一个深度词袋模型，通过点积查询表示与文档表示来获得相关性分数.Shen et al^［6］（2014年）和Palangi et al^［7］（2016年）分别使用卷积神经网络和递归神经网络替换词袋模型来改进该方法.随着语言模型在自然语言中得到广泛应用，越来越多的跨语言文本检索技术使用了多语言模型，如Pires et al^［8］利用多语言版本BERT及Conneau and Lample^［9］提出跨语言模型XLM来执行跨语言检索任务，已成为跨语言信息检索领域的主流方法.

综上，使用多语言预训练方法可以提高跨语言文本检索的准确性，通用的跨语言信息检索方法也取得了不错的效果.但在汉越跨境民族领域中存在大量不常见的领域实体，且实体表达形式多样，通用的跨语言信息检索模型无法有效检索相关的领域实体，因此不适用于领域类的汉越跨境民族文本检索任务.本文通过融入汉越跨境民族领域知识图谱的方法，可以有效地缓解跨境民族文化领域中存在的问题.

2 汉越跨境民族知识图谱

当前通用领域的知识图谱和跨境民族知识图谱的差异较大，无法直接用于汉越跨境民族文本检索任务.因此，本文对已有的中文跨境民族知识图谱进行扩充，已有的中文跨境民族知识图谱包含傣族、泰族、佬族、掸族、阿萨姆族和彝族六个民族，每个民族都包括宗教、建筑、饮食、习俗、服饰和艺术六个类别.中文跨境民族实体的属性包含名称、别称、描述内容等，如实体“坛坛酒”的实体别称为“咂酒”，实体描述内容为“傣族饮品”.

本文对已有的中文跨境民族知识图谱^［10］进行扩充，在百科词条、维基百科、各大民族网站收集并筛选大量的中文跨境民族知识三元组，并根据扩充后的中文跨境民族知识图谱中的实体在维基百科中爬取相应越南语实体扩充为越南语知识图谱.扩充后的汉越跨境民族知识图谱类别数量如表2所示.

表2 扩充后的汉越跨境民族知识三元组的数量

Table 2 The expanded triad scale of Chinese⁃Vietna⁃mese cross⁃border ethnic knowledge

类别	中文知识三元组	越南语知识三元组
宗教文化	718	568
建筑文化	491	402
服饰文化	623	538
饮食文化	558	444
艺术文化	488	376
习俗文化	646	350
共计	3524	2678

新窗口打开| 下载CSV

3 基于对比学习的汉越查询和文档对齐方法

对比学习是一种依赖每个文档在某种程度上都是独一无二的事实的方法，本文采用对比学习^［1］的方法来训练跨语言查询文档，使其对齐到同一空间中.通过对比损失来学习区分文档，这种损失比较正（来自同一文档）或负（来自不同文档）文档表示对，通过构建正负样本对可以使模型更好地学习目标类别的特征表示.将正样本与负样本进行比较，使模型能够学习区分目标类别与其他类别的决策边界，这有助于提高模型在未见过的数据上的泛化能力.

3.1　对比学习中正负样本对构建

对比学习的一个关键要素是从单个文本构建正负样本对.在计算机视觉中，Wu et al^［11］和Chen et al^［12］对同一张图像应用两个独立的数据增强，从而产生两个正对的“视图”.本文考虑了类似的数据处理，对跨境民族数据进行数据增强.如表3所示，表中黑体字表示中文查询的关键词.

表3 汉越跨境民族文化正负样本示例

Table 3 Examples of positive and negative samples of Han⁃Vietnamese cross⁃border ethnic culture

中文文本	越南语文本	类型
傣族人在泼水节期间看龙舟赛.	Người Dai xem đua thuyền rồng trong Lễ hội té nước.	原数据
傣族人看龙舟比赛.	Người Dai có thuyền rồng trong Lễ hội Songkran.	正样本
傣族人在火把节期间看龙舟赛.	Người Dai xứ Đài xem đua thuyền rồng trong Lễ hội đuốc.	负样本

新窗口打开| 下载CSV

3.2　对比学习正样本构建

2019年Lee et al^［13］提出逆完形填空任务是一种数据增强，可生成文档的两个互斥视图，第一个视图通过从一段文本中随机采样一个段落范围获得，而该范围的补码形成第二个视图.具体地，给定一个序列文本 $(w_{1}, w_{2}, \dots, w_{n})$ ，截取文本的跨度为 $(w_{a}, \dots, w_{b})$

$(1 \leq a \leq b \leq n)$ .把截取跨度为 $(w_{a}, \dots, w_{b})$ 和 $(w_{1}, \dots, w_{a - 1}, \dots, w_{b + 1}, \dots, w_{n})$ 的文本都作为正样本.另外，独立裁剪是一种常见的独立数据增强，该策略从文档中独立采样两个段落以形成正对.两个段落都对应于原始数据的连续子序列.

3.3　对比学习负样本构建

构建负样本和构建正样本逆完形填空任务相似，只不过是把截取文本段落替换为其他文本，比如，对一个序列文本 $(w_{1}, \dots, w_{a}, \dots, w_{b}, \dots, w_{n})$ ，随机替换段落文本得到一个新的序列文本 $(w_{1}, \dots, n_{a}, \dots, n_{b}, \dots, w_{n})$ ，其中， $(n_{a}, \dots, n_{b})$ 是随机替换文本.另外，将汉越跨境民族中的专有领域实体随机替换、删除或屏蔽.

4 基于领域知识图谱和对比学习的汉越跨境民族文本检索方法

4.1　模型框架

该模型主要由汉越跨境民族查询和文档表征层、汉越跨境民族查询和文档实体扩展层、汉越跨境民族查询和文档特征融合层、汉越跨境民族对比学习层及相关性分数计算五部分构成，模型结构如图1所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 基于领域知识图谱和对比学习的汉越跨境民族文本检索方法

Fig.1 Chinese⁃Vietnamese cross⁃border ethnic text retrieval method based on domain knowledge graph and comparative learning

4.2　汉越跨境民族查询文档向量表征

该层采用XLM⁃R语言模型对跨境民族查询和文档进行向量表征，查询和文档实现了动态表征向量.汉越跨境民族查询和文档分别视为序列 $q = \{q_{1}, q_{2}, \dots, q_{n}\}$ 和序列 $d = \{d_{1}, d_{2}, \dots, d_{n}\}$ 组成，其中， $q_{i}$ 和 $d_{i}$ 分别是查询和文档的第 $i$ 个词. $q$ 和 $d$ 通过XLM⁃R训练得到的查询和文档的表征向量如式（1）和式（2）所示：

V_{q} = X L M - R (q)

(1)

V_{d} = X L M - R (d)

(2)

其中， $V_{q}$ 和 $V_{d}$ 分别表示汉越跨境民族文化查询和文档的表征向量，经过XLM⁃R语言模型可以更好地捕捉汉越跨境民族文本中实体之间的语义信息.

4.3　基于知识图谱的汉越查询和文档扩展

该层融入知识图谱的过程首先利用Chen et al^［14］提出的MtransE方法训练一个汉越跨境民族知识图谱嵌入模型，如图2所示；其次，利用杨振平等^［15］提出的跨境民族文化实体识别技术抽取查询或文本中的领域实体，抽取的领域实体与汉越跨境民族文化领域知识图谱做实体链接扩展相关实体.扩展的实体可以作为汉越跨境民族查询和文档的背景知识补充，解决无法捕获“领域实体”与“汉越领域实体缺失”问题.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 汉越跨境民族知识图谱嵌入的模型

Fig.2 Embedding model diagram of Chinese⁃Vietna⁃mese cross⁃border ethnic knowledge map

扩展出的实体由很多个词集合构成，词之间没有任何关系，使用XLM⁃R语言模型静态表征.将查询与知识图谱扩展的实体视为一个词序列集合 $e^{q} = \{e_{1}^{q}, e_{2}^{q}, \dots, e_{n}^{q}\} \in V_{E}$ ，文本与知识图谱扩展的实体视为一个词序列集合 $e^{d} = \{e_{1}^{d}, e_{2}^{d}, \dots, e_{n}^{d}\} \in$

$V_{E}$ ，其中， $V_{E}$ 是汉越知识图谱中的实体， $e^{q}$ 和 $e^{d}$ 分别表示查询和文档与汉越知识图谱扩展的词集合. $e_{i}^{q}$ 和 $e_{i}^{d}$ 是查询和文档扩展出的词序列集合中的第 $i$ 个词，分别通过XLM⁃R语言模型得到词向量表示，如式（3）和式（4）所示：

V_{e_{i}}^{q} = X L M - R (e_{i}^{q})

(3)

V_{e_{i}}^{d} = X L M - R (e_{i}^{d})

(4)

其中， $V_{e_{i}}^{q}$ 和 $V_{e_{i}}^{d}$ 分别表示汉越跨境民族查询和文档扩展的实体向量表示.

4.4　汉越跨境民族查询文档特征融合

该层将查询和文档中的向量分别与知识图谱扩展的实体集合向量拼接，得到融合后的表征向量.具体地，查询向量 $V_{q}$ 和查询中的实体与知识图谱实体链接得到的实体向量 $V_{e_{i}}^{q}$ 拼接，如式（5）所示.文本向量 $V_{d}$ 和文档中的实体与知识图谱实体链接得到的实体向量 $V_{e_{i}}^{d}$ 拼接，如式（6）所示.

V_{q}^{'} = V_{q} \oplus \sum_{i = 0}^{n} V_{e_{i}}^{q}

(5)

V_{d}^{'} = V_{d} \oplus \sum_{i = 0}^{n} V_{e_{i}}^{d}

(6)

其中， $\oplus$ 表示向量拼接， $V_{q}^{'}$ 和 $V_{d}^{'}$ 分别是查询和文档与知识图谱中的实体融合后的向量表示.

另外，本文引入2017年Vaswani et al^［16］提出的多头注意力机制，将融合汉越跨境民族领域实体的查询和文档向量作为输入，通过多头注意力机制进行特征编码，丰富查询和文档之间跨境民族相关的语义信息，为下一步输入对比学习层中更好地对齐表征在同一空间作铺垫.如式（7）所示：

A t t e n t i o n (Q, K, V) = s o f t m a x (\frac{Q K^{T}}{\sqrt[]{d_{K}}}) V

(7)

其中， $Q$ ， $K$ ， $V$ 表示查询或文本的输入都是一样的； $\sqrt[]{d_{K}}$ 是比例因子，可以避免乘积过大.

4.5　对比损失层

该层将汉越跨境民族查询和文档数据表征对齐到同一空间，利用对比学习的思想将相同类型的查询和文档聚类在一起.给定一个带有相关正文档 $k_{+}$ 的查询 $q$ 以及一个负文档池 ${(k_{i})}_{i = 0, \dots, K}$ ，对比损失函数的定义如式（8）所示：

ℒ (q, k_{+}) = - \frac{e x p (s (q, k_{+}) / τ)}{\sum_{i = 0}^{K} e x p (s (q, k_{i}) / τ)}

(8)

其中， $τ$ 是温度参数.这种损失使相关文档的相关性得分较高，而无关文档的相关性得分较低.

4.6　汉越跨境民族查询和文档相关性分数计算

分数 $s$ 中的左侧表示称为查询，右侧表示称为键.另外，本文使用双编码器架构，查询和文档是独立编码的.通过获取查询表示和文档表示之间的点积（或余弦相似度）来计算相关性分数，如式（9）所示：

s (q, d) = 〈f_{θ} (q), f_{θ} (d)〉

(9)

其中， $q$ 表示查询， $d$ 表示文档；使用相同的参数 $θ$ 的模型 $f_{θ}$ 独立地对每一个查询和文档进行编码. $s (q, d)$ 是查询和文档点积后得到的相关性分数结果表示.

5 实验分析

5.1　汉越跨境民族文本检索数据集

参照CCNet的公共数据集格式，人工构建汉越跨境民族数据集.使用爬虫技术，在维基百科和汉越跨境民族相关网站获取跨境民族数据，并进行过滤特殊字符等预处理操作，如去除空格、乱码、表情符号以及公式符号等.

处理后的汉越跨境民族傣族、掸族、泰族、佬族、阿萨姆族、彝族等六个民族，有宗教、建筑、节日、饮食、习俗和文艺等六种类型的数据.其中，中文跨境民族文化数据爬取了135572条，越南语跨境民族文化数据爬取了109048条.数据样本的规模分布如图3所示.此外，汉越跨境民族文本检索查询⁃文档对训练集分别包含109572条和85148条句子，汉越跨境民族文本检索查询⁃文档对测试集包含26000条和23900条句子.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 汉越跨民族文化数据集的分布样例

Fig.3 Sample distribution of Chinese⁃Vietnamese cross⁃border ethnic culture dataset

5.2　实验参数设置

使用AdamW优化器，通过不断地调节实验参数获得最优的跨语言文本检索模型，并确保模型在参数最优的情况下进行训练.具体的参数设置如表4所示.

表4 实验中本文模型的参数设置

Table 4 Parameters setting of our model in experiments

Object	Number
queue of size	23768
temperature	0.05
momentum	0.999
learning rate	0.00005
ratio_max	0.5
ratio_min	0.1

新窗口打开| 下载CSV

5.3　实验评价指标

采用国际通用的搜索算法平均倒数排名（Mean Reciprocal Rank，MRR）对提出的模型进行评估，MRR的计算如式（10）所示：

M R R = \frac{1}{Q} \sum_{i = 1}^{|Q|} \frac{1}{r a n k_{i}}

(10)

其中， $|Q|$ 是待查询文本的个数， $r a n k_{i}$ 表示第i个查询文本在待查询文档中检索出的第一个正确文档的排名.对检索出的正确文档在评价系统给出结果中的排序取倒数，作为它的准确度，再对所有的问题取平均值.

5.4　实验结果与分析

5.4.1　实验1：基线模型对比实验

为了验证本文方法的有效性，将提出的模型与最近四年的方法做对比实验，为公平起见，各个方法都使用了汉越跨境民族数据集，结果取100次实验的平均值.

（1）UnsupCLIR模型：2018年Litschko et al^［17］提出的一种基于共享的跨语言词嵌入空间的无监督方法.

（2）Wasserstein模型：2018年Balikas et al^［18］提出的一种基于距离来衡量文本段落之间差异的方法.

（3）EncoderCLIR模型：2021年Litschko et al^［19］提出的一种基于多语言编码器的文本排序模型.

（4）mDPR模型：2021年Asai et al^［20］提出的基于双编码器的查询文档对相关性计算模型.

表5给出了本文模型与其他模型的召回率和平均倒数排名，表中黑体字表示性能最优.由表可见，本文模型与其他四个模型相比，召回率最佳，MRR分别提升26.6%，20.1%，12.8%和7.9%.UnsupCLIR模型利用共享的跨语言词嵌入空间来直接计算查询和文档中单词的语义相似度，效果较差，因为依赖单词级和文档级对齐而诱导的跨语言嵌入影响了模型检索的效果.Wasserstein模型提出了一种新的矩阵来测量文本段落之间的差异，但没有考虑跨语言词语与文本特征之间的交互，故检索效果也欠佳.

表5 本文模型和其他模型的对比实验结果

Table 5 Experimental results of our algorithm and other algorithms

模型名称	Recall @ 100	MRR @ 100
本文方法	0.909	0.658
UnsupCLIR	0.752	0.392
Wasserstein	0.813	0.457
EncoderCLIR_mBERT	0.859	0.524
mDPR	0.884	0.579

新窗口打开| 下载CSV

值得注意的是，和其他的基线模型相比，EncoderCLIR_mBERT和mDPR模型表现出较好的检索性能，这是因为EncoderCLIR_mBERT模型通过多语言模型单独编码每个词汇术语来诱导并引入静态嵌入空间，再为特定的语言对细化双语空间，所以能更好地捕获查询和文档之间的关联关系.mDPR模型分别对查询和文档进行单独编码，基于神经网络的密集检索器很好地替代了基于词频的经典稀疏方法，使模型的检索效果更好.这两个算法的性能弱于本文模型的原因在于本文融入了汉越跨境民族知识图谱来增强查询和文档数据的“跨境”关联关系，也从侧面反映了本文模型融入汉越领域知识图谱能提升检索效果这一观点的正确性.

5.4.2　实验二：消融实验结果对比

使用2021年Izacard et al^［1］提出的跨语言检索模型作为Baseline模型，在Baseline模型上融入汉越跨境民族领域知识图谱模块来对查询和文档进行实体扩展，以此验证本文中不同正负例对比样本构建方法的有效性.实验结果如表6所示，表中黑体字表示性能最优.

表6 消融实验的结果

Table 6 Ablation experiment results

模型名称	Recall @ 100	MRR @100
本文模型	0.909	0.658
mContriever_mBERT	0.878	0.594
mContrieverXLM⁃R	0.887	0.617
mContrieverXLM⁃独立剪裁（对比学习）	0.889	0.645
mContrieverXLM⁃span （对比学习）	0.894	0.651
mContrieverXLM⁃two_view （对比学习）	0.898	0.656

新窗口打开| 下载CSV

由表可见，Baseline使用XLM⁃R语言模型的性能明显高于使用mBERT语言模型，而本文方法与Baseline相比，提高了4.1%.这是因为在汉越跨境民族查询和文档数据中存在大量不常见的领域实体以及实体表达形式多样化的问题，本文通过多头注意力将汉越跨境民族知识图谱自适应地融入查询和文档，增强了汉越跨境民族领域实体语义信息，有利于模型更好地捕获文本数据中“跨境”领域文本的关联关系，提升模型检索的性能.此外，为了验证本文中不同正负例对比样本构建方法的有效性，进行了三类正负样本的消融实验.实验结果显示，分别去除每一类对比学习方法后，模型效果均有下降，进一步验证了对比学习方法对模型效果的影响.同时，去除独立剪裁一类方法后，模型的性能下降最明显，表明独立剪裁方法构建的正负样本质量比其他两种方法更好，对模型性能有更大的影响.

5.4.3　实验三：不同多语言模型实验结果对比

为了验证使用不同多语言模型对本文模型性能的影响，进行了三个实验，使用三种不同的多语言模型为汉越跨境民族查询和文档数据做语义表征，其他层都保持不变.实验结果如表7所示，表中黑体字表示性能最优.由表可见，使用XLM⁃R语言模型时，本文模型的性能最佳，主要是因为XLM⁃R语言模型在低资源语言上的表现特别好，使汉越跨境民族查询文档数据的语义表征更准确，所以本文模型可以更好地捕获汉越跨境民族文本数据特征.

表7 不同多语言模型的实验结果

Table 7 Experimental results of different language models

模型名称	Recall @ 100	MRR @ 100
本文模型（XLM⁃R）	0.909	0.658
本文模型(mBERT)	0.884	0.625
本文模型(XLM)	0.895	0.631

新窗口打开| 下载CSV

5.4.4　实验四：不同动量值对于模型性能的影响

为了验证使用不同的动量参数对本文模型性能的影响，进行第四个实验，实验结果如表8所示，表中黑体字表示性能最优.由表可见，当动量参数为0.999时，模型的性能最优，小于这个阈值时，模型性能逐渐下降，这是因为动量参数越小，编码器更新越快，导致模型性能下降，所以实验中设置动量参数为0.999.

表8 本文模型使用不同动量值的性能

Table 8 Experimental results of our algorithm with different momentum values

模型名称	Recall @ 100	MRR @ 100
Momentum=0.995	0.887	0.574
Momentum=0.996	0.892	0.60.3
Momentum=0.997	0.899	0.629
Momentum=0.998	0.901	0.641
Momentum＝0.999	0.909	0.658

新窗口打开| 下载CSV

5.5　案例分析

表9左边是中文检索越南语的检索效果，检索文本包括“người Tay（泰族）”“Songkran（宋干节）”“Người Shan（掸族）”“Lễ hội tắm Phật（浴佛节）”等；右边是越南语检索中文的检索效果，检索文本包括“泰族”“宋干节”“掸族”“浴佛节”“桑勘比迈”“楞贺桑勘”等.由表可见，融合领域知识图谱显著提升了汉越跨境民族文化文本检索效果（见表中的黑体字）.证明本文通过融入汉越领域知识图谱的汉越跨境民族文本检索模型，能有效地捕获查询和文档之间“跨境”的关联关系，提高了文本检索的效果.

表9 实例分析

Table 9 Case analysis

Query查询文本：傣族泼水节	Query查询文本：Lễ hội té nước Dai
1.Đây là hình thức biểu diễn không thể thiếu trong Lễ hội Songkran của người Tay.	1.傣族泼水节，傣语称桑勘比迈或楞贺桑勘，时间在傣历6月下旬或7月初（公历4月中旬）.
2.Người Shan gọi "Lễ hội tắm Phật" là "Bimai", có nghĩa là năm mới.	2.每逢泰族宋干节，人们开始互相泼，你泼我，我泼你，一朵花在空中绽放，象征吉祥、幸福、健康.
3.Lễ hội té nước là chữ viết dân tộc nhất của người Dai.	3.宋干节是泰国泰族、缅甸掸族、老挝佬族以及中国傣族的传统节日.
4.Lễ hội té nước chỉ được tổ chức ở những làng người Dai theo đạo Phật Nam tông.	4.掸族最隆重的节日是浴佛节，也称“宋干节”，掸族都会在浴佛节期间举办一定规模的庆祝活动.

新窗口打开| 下载CSV

6 结论

汉越跨境民族文本检索是一类面向领域的跨语言检索任务，针对其中的问题，如存在大量罕见的领域实体、实体表达多样以及跨语言实体存在缺失等，本文提出基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.该方法利用多头注意力机制，将汉越跨境民族领域知识图谱融入查询和文档中，丰富查询和文档中不常见的跨境民族领域实体信息.同时，本文通过引入对比学习来解决跨语言领域词和语义表征对齐困难问题.

大量的实验证明，本文提出的跨语言检索方法在跨境民族文化实验数据集上取得了比基线模型更好的检索性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Izacard

， Caron

， Hosseini

，et al.

Unsupervised dense information retrieval with contrastive learning

2022，arXiv:.

[本文引用: 3]

[2]

Gao

J F

， Nie

J Y

， Xun

E D

，et al.

Improving query translation for cross⁃language information retrieval using statistical models

∥Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New Orleans，LO，USA：ACM，2001：96-104.