南京大学学报(自然科学), 2023, 59(6): 1013-1022 doi: 10.13232/j.cnki.jnju.2023.06.011

基于BoBGSAL⁃Net的文档级实体关系抽取方法

冯超文1,2, 吴瑞刚1,2, 温绍杰1,2, 刘英莉,1,2

1.昆明理工大学信息工程与自动化学院,昆明,650500

2.云南省计算机技术应用重点实验室,昆明理工大学,昆明,650500

Document⁃level entity relation extraction method based on BoBGSAL⁃NET

Feng Chaowen1,2, Wu Ruigang1,2, Wen Shaojie1,2, Liu Yingli,1,2

1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,650500,China

2.Yunnan Key Laboratory of Computer Technology Application,Kunming University of Science and Technology, Kunming,650500,China

通讯作者: E⁃mail:lyl@kust.edu.cn

收稿日期: 2023-08-20  

基金资助: 国家自然科学基金.  52061020.  61971208
云南计算机技术应用重点实验室开放基金.  2020103
云南省重大科技专项计划项目.  202302AG050009

Received: 2023-08-20  

摘要

文档级实体关系抽取的主要任务是提取文档中实体之间的关系.相较于句内实体关系提取,文档级实体关系抽取需要对文档中多个句子进行推理.为了解决文档中不同实体之间的复杂信息交互问题,提出一个混合提及级图MMLG (Mixed Mention⁃Level Graph)策略,用于拟合文档中不同实体之间的复杂信息交互,提高模型对于文档级实体关系的感知能力.此外,为了应对实体关系中存在的关系重叠问题,构建了实体关系图ERG (Entity Relation Graph)模块,该模块融合了路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.通过将MMLG策略与ERG模块聚合到实体关系抽取模型中,构建BoBGSAL⁃Net (Based on Bipartite Graph Structure Aggregate Logic Network)模型,并在公开数据集DocRED和作者实验室构建的数据集AlSiaRED上开展实验,结果证明BoBGSAL⁃Net在文档级实体关系抽取任务中性能得到提升,其中BoBGSAL⁃Net+BERT模型在AlSiaRED数据集上的关系抽取任务中F1指标达到66.04%,和其他模型相比,整体性能提升了4.4%,泛化能力突出,综合效果最优.

关键词: 文档级实体关系抽取 ; 混合提及级图 ; 实体关系图 ; BoBGSAL⁃Net模型

Abstract

The primary task of document⁃level entity relation extraction is to extract relationships among entities in a document. Compared to intra⁃sentence entity relation extraction,document⁃level entity relation extraction requires reasoning across multiple sentences in the document. To address the challenge of complex information interaction among different entities in the document,this paper proposes a Mixed Mention⁃Level Graph (MMLG) strategy for modeling intricate information interaction among different entities in the document,thereby enhancing the model's perception of document⁃level entity relations. Additionally,to handle the issue of relationship overlap within entity relations in documents,an Entity Relation Graph (ERG) module is constructed,incorporating a path reasoning mechanism that focuses on inferring and learning from multiple relationship paths among entities. This module enhances the accurate identification of entity and relation nodes at the mention level.By integrating the MMLG strategy and ERG module into the entity relation extraction model,this paper develops the BoBGSAL⁃Net (Based on Bipartite Graph Structure Aggregate Logic Network) model. Experimental evaluations are conducted on the publicly available DocRED dataset and the AlSiaRED dataset created by the authors' laboratory. The experimental results demonstrate the performance improvement of BoBGSAL⁃Net in document⁃level entity relation extraction tasks. Notably,the BoBGSAL⁃Net+BERT model achieves an F1 score of 66.04% in relation extraction tasks on the AlSiaRED dataset,showcasing a 4.4% overall performance improvement compared to other models. The model exhibits exceptional generalization capability,culminating in an optimal comprehensive performance.

Keywords: document⁃level entity relation extraction ; mixed mention⁃level graph ; entity relation graph ; BoBGSAL⁃Net model

PDF (842KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

冯超文, 吴瑞刚, 温绍杰, 刘英莉. 基于BoBGSAL⁃Net的文档级实体关系抽取方法. 南京大学学报(自然科学)[J], 2023, 59(6): 1013-1022 doi:10.13232/j.cnki.jnju.2023.06.011

Feng Chaowen, Wu Ruigang, Wen Shaojie, Liu Yingli. Document⁃level entity relation extraction method based on BoBGSAL⁃NET. Journal of nanjing University[J], 2023, 59(6): 1013-1022 doi:10.13232/j.cnki.jnju.2023.06.011

近年来,随着深度学习算法快速发展,基于神经网络的文档级实体关系抽取1方法已经成为研究热点.文档级实体关系抽取是指从整个文档中抽取出实体之间的关系,相较于句子级实体关系抽取2,文档级实体关系抽取需要处理更大量、更复杂的实体关系信息.因此,需要将多个句子中的实体关系整合起来,以更准确地识别实体之间的关系.目前实体关系抽取的方法主要分为基于传统机器学习和深度学习的方法.基于传统机器学习的文档级实体关系抽取依赖于特征工程,无法处理复杂关系,并且模型的泛化能力有限.相比之下,基于深度学习的实体关系抽取方法可以很好地解决这些问题,对长文本处理更加高效,也具有更强的鲁棒性.

1 相关工作

基于深度学习的文档级实体关系抽取的方法主要包括基于序列3、基于图和基于预训练语言模型4.Geng et al5提出一种基于双向树结构长短期记忆的端到端方法,提取基于句子依赖树的结构特征.Luo et al6提出一种基于神经网络的方法,即带有条件随机场层的注意力双向长短时记忆方法,用于文档级别的化学命名实体识别.Tang et al7提出一种分层推理网络,充分利用来自实体级、句子级和文档级的丰富信息,将平移约束和双线性变换应用于多个子空间中的目标实体对,以获得实体级的推理信息.Najibi et al8提出一种基于卷积神经网络9-12的目标检测技术,可以从多尺度网格的固定边界框开始,训练一个回归器,迭代地将网格元素移动和缩放到紧密围绕物体的框中.Huang et al13提出一种针对不断变化的大型图而设计的动态图划分算法,该算法与分区算法紧密集成,进一步减少了分区算法切割的边数.尽管以上研究方法已在文档级实体关系抽取任务中取得了一些较好的成果,但仍然存在一定的局限性,具体表现在识别一些不需要一致性的实体类型时可能存在缺点.例如,在文章中有时会使用相同的缩写来指代不同的实体,而且在处理需要捕获更复杂的长距离依赖信息的文章时,这些方法表现不佳.

针对文档级实体关系抽取的研究,主要难点有:(1)文档中不同实体之间的复杂信息交互问题,需要对文档中多个句子进行推理,对于深度学习模型的训练和推理会带来更高的计算复杂度;(2)文档中实体关系中存在的关系重叠问题,一个实体可能有多种不同的含义及解释,一个实体对应多种关系的复杂性.为了解决上述问题,本文提出一种基于双图结构的聚合逻辑网络(Based on Bipartite Graph Structure Aggregate Logic Network,BoBGSAL⁃Net)的文档级实体关系抽取方法,该方法首先构建一个混合提及级图(Mixed Mention⁃Level Graph,MMLG)来模拟整个文档中不同提及节点之间的信息交互,然后构建了实体关系图(Entity Relation Graph),针对文档的句内实体进行关系提取.基于MMLG和ERG,本文融合聚合逻辑推理路径来推断实体之间的关系并进行分类预测.最后,在公开的数据集DocRED以及作者实验室构建的数据集AlSia⁃RED14上进行实验,结果证明BoBGSAL⁃Net在文档级实体关系抽取任务中性能有一定提升.

2 本文方法

BoBGSAL⁃Net是一种基于双图特征的图聚合和推理网络15-17,利用异构提及级图来建模文档中不同提及级节点之间的交互,并捕获文档感知功能,从而更好地处理文档级的实体关系提取任务.BoBGSAL⁃Net采用实体级图,并融合路径推理机制来更明确地推断关系.该模型由四个部件组成,包括文本编码嵌入机制、混合提及级图策略、实体关系图模块和分类预测模块.其中,文本编码嵌入机制采用了BiLSTM6,GloVe18和BERT19三种文本编码嵌入方式.BiLSTM在捕捉局部上下文信息方面效果较好;GloVe生成的词向量利用了全局语料库中的共现信息,对于单个词的语义表示有一定优势;BERT通过双向文本建模捕捉丰富的上下文信息,对于理解复杂实体关系至关重要.BERT的预训练模型能有效编码整个文档上下文,包括长文本中的实体语义关系.相较于BiLSTM和GloVe,采用BERT作为词嵌入模型具有显著优势.混合提及级图策略主要用于不同提及级节点之间的信息交互模拟计算,实体关系图模块对整个文档中的实体关系进行交叉计算.最后,通过实体关系分类预测模块,该模型可以从文档中抽取实体和关系.BoBGSAL⁃Net的完整结构如图1所示.

图1

图1   BoBGSAL⁃Net结构图

Fig.1   The structure of BoBGSAL⁃Net


2.1 文本编码嵌入机制

在文本编码嵌入机制中,定义一个文档D=wii=1n,其中n为文档中包含的词数量,将D映射为一个向量序列gii=1n.对于D中每个词wi,首先将词嵌入、实体类型嵌入与核心关系嵌入进行拼接,作为一个文本编码向量嵌入,表示方法如式(1)所示:

xi=Ewwi;Etti;Ecci

其中,EwEtEc分别代表词嵌入矩阵、实体类型嵌入矩阵和核心关系嵌入矩阵,ti表示命名实体类型,ci表示实体id.无论是DocRED数据集还是文档级实体关系抽取数据集中都有大量词不属于任何实体,因此本文定义一个None实体类型和id作为这些实体的实体类型嵌入与核心关系嵌入.

接着将向量化的单词表征嵌入编码器来获得每个词的上下文敏感表征,嵌入公式如下所示:

g1,g2,,gn=Encoderx1,x2,,xn

2.2 混合提及级图策略

本文提出混合提及级图策略对文档级的提及级节点和实体之间的相互作用进行建模.该策略包含两种不同类型的节点,即提及级节点和文档级节点.每个提及级节点表示一个实体的提及表征,文档级节点则用于建模整个文档,类似于一个支点与不同的提及级节点进行交互,以解决长距离节点交互的问题.提及级节点之间的交互采用有向无环图的形式,该表示方式同时代表了节点在文档中的上下文关系.

MMLG模块共包含三种类型的边,包括共指边、实体间边和文档级边.其中,共指边指同一实体类型形成的边,例如实验名——实验名.通过共指边,可以实现文档中同一实体在不同提及方式之间的信息交互和建模.实体间边指两个不同的实体在一个句子中共同出现形成的边,例如合金——元素.通过实体间边,可以对实体之间的信息交互进行建模.共指边和实体间边都属于提及级边,而所有提及级内容都通过文档级边连接到文档节点.

通过以上连接结构,文档级节点可以关注到所有提及级节点,并实现文档和提及之间的互动.同时,使用文档级节点作为支点,两个提及级节点之间的距离最多为两条边,通过这种结构可以很好地避免文档长文本的长距离依赖问题.

接着,在MMLG模块上使用GCN来聚合邻接特征.给定第l层的节点u,图卷积操作的定义如下式所示:

hul+1=δkκvNkuWklhvl+bkl

其中,k代表不同类型的边,WklRd×dbklRd都是可训练参数,Nku表示连接在第k类边上的节点u的邻接,δ表示激活函数.

GCN的不同层表达了不同抽象层次的特征,为了涵盖所有层次的特征,将各隐藏层状态串联起来,形成节点u的最终表示,如式(4)所示:

mu=hu0;hu1;;hun

其中,hu0是节点u的初始化表征.文档中从第s个词到第t个词的提及如式(5)所示:

hu0=1t-s+1j=stgj

对于文档级节点,则被初始化为编码模块输出的文档表征.

2.3 实体关系图模块

边连接的实体合并到实体节点,得到ERG中的节点,该模块对文档级节点透明,被提及N次的第i个实体节点利用平均数来表示,如式(6)所示:

ei=1nnmn

将所有连接两个相同实体提法的实体间边合并,得到ERG中的边.从实体i到实体j的有向边的表示方法如式(7)所示:

eij=δWqei;ej+bq

其中,Wqbq为可训练的参数,δ为激活函数.基于向量化的边表示,头实体eh和尾实体et之间经过实体eo的第i条路径采用如式(8)所示:

Ph,ti=eho;eot;eto;eoh

以上只考虑两次跳转情况的路径,上述公式很容易扩展到多次跳转路径的情况.同时,引入注意力机制20,使用实体对eh,et作为query来融合ehet之间的不同路径信息.融合公式的表述如式(9)~(11)所示:

si=δeh;et·Wl·Ph,ti
αi=esijesi
Ph,t=iαiPh,ti

其中,αi表示第i条路径的归一化注意力权重,这样会使模型更关注有用的路径.然后,在ERG模块上融合GCN来获取实体关系信息,最大程度上提高模型对实体关系的预测准确率.

通过ERG模块将实体的提及信息进行融合,通常这些信息分布在多个句子中,通过实体之间的不同路径来模拟潜在的推理线索.然后采用自注意力机制结合这些信息,能够更好地利用潜在的逻辑推理链来预测实体之间的关系.

2.4 分类预测模块

BoBGSAL⁃Net的分类预测模块是该模型的最后一层,用于对文档级实体关系进行分类预测.该模块通过将每个实体对连接起来实现此目的,连接方式如下.

(1)对每个ERG模块中得到的头实体和尾实体表征ehet,通过对比操作来加强特征,将两个实体表征的绝对值相减,即eh-et.然后逐元素相乘,即ehet.

(2)将每个MMLG模块中的文档级节点表示为mdoc,利用该节点来聚合跨句间的信息,并提供文档级节点与提及级节点的交互表征信息.

(3)综合以上两步推理路径信息Ph,t,具体表述如下所示:

Ih,t=eh;et;eh-et;ehet;mdoc;Ph,t

最后,将文档级实体关系抽取任务定位为多标签分类任务,并对实体之间的关系进行预测,公式如下:

Preh,et=sigmoidWbδWaIh,t+ba+bb

其中,WaWbbabb为训练参数,δ为激活函数.使用二进制交叉熵作为分类损失来训练该端到端网络,表征连接过程如式(14)所示:

𝓁=-DShtriRri=1lgPrieh,et+ri=0lg1-Prieh,et

其中,S代表整个语料库,·表示指示函数.

3 实验设置

3.1 实验环境

实验在一台搭载Ubuntu 20.04操作系统的服务器上进行,服务器的相关配置如表1所示.由于BoBGSAL⁃Net模型是深度学习模型,需要GPU进行模型运算,GPU可以极大地提高模型的运算速度.实验使用的核心依赖工具包如表2所示.

表1   服务器的详细配置

Table 1  Detailed server configuration

操作系统Ubuntu 20.04 LST
CPU型号Inter Xeon Gold 5120 (56) CPU @2.2GHZ
CPU存储256 G
GPU型号NVIDIA Tesla V100
GPU存储16 G

新窗口打开| 下载CSV


表2   核心依赖工具包

Table 2  Core dependency toolkit

安装包版本
CUDA10.2
Python3.7.5
Matplotlib3.3.5
NumPy1.19.4
Torch1.6.0
Transformers3.1.0
Scikit⁃learn0.23.2

新窗口打开| 下载CSV


使用NumPy和Matplotlib对数据进行探索性分析,并使用Scikit⁃learn和Torch构建训练机器学习和深度学习模型.在处理文本数据时,使用Transformers库中预训练的模型来提取特征,然后使用Scikit⁃learn或Torch进行分类和回归任务.此外,使用CUDA在GPU上加速模型的训练和推断过程,提高计算速度.

3.2 数据集

DocRED是一个大规模数据集,从维基百科和维基数据构建而来.它提供了全面的人工标注,包括实体提及、实体类型、关系事实以及相应的支持证据.共有97个目标关系,每个文档中平均大约有26个实体.数据规模为3053个训练文档,1000个开发集文档和1000个测试文档.此外,DocRED还收集了用于其他研究的远程监督数据.

作者自建数据集AlSiaRED14是在铝硅合金研究领域的专家指导下,构建的用于铝硅合金关系抽取的一个数据集,其构建过程包括选择材料科学文献、确定标注内容以及进一步确定数据集的实体类型和关系类型.AlSiaRED数据集共涵盖8226个句子,标注了9362个实体以及6876种关系,可以同时进行实体识别和关系抽取任务.

3.3 实验配置

本文提出的BoBGSAL⁃Net是一个基于Pytorch和DGL (Deep Graph Library)框架的模型,其中包含两层GCN网络结构,dropout的比率设置为0.6,学习率初始化为0.001.模型优化器采用AdamW,权重衰减为0.0001.

在词嵌入层层面,采用了三种不同的模型,包括BiLSTM,GloVe和BERT.其中,BiLSTM(256 d)和GloVe(100 d)用于词嵌入编码.基于BERT的词嵌入采用官方提供的BERT base和BERT large预训练模型,并将学习率初始化为1e-5.

3.4 评估指标

使用F1作为评估指标之一.F1是精确率和召回率的加权几何平均值,是平衡准确率和召回率的综合指标.精确率、召回率和F1如式(15)~(17)所示:

precision=TC
recall=TA
F1=2×precision×recallprecision+recall

其中,T为一类实体被正确分类的实际个数,C表示被识别为这一类实体的样本总数,A为样本中的实体实例总数.

基于混淆矩阵衍生出另一个评估指标AUC (Area under Curve),即受试者工作特征曲线下的面积来评估分类模型的性能.评估指标的计算涉及混淆矩阵,主要通过对True Positive (TP),False Positive (FP),True Negative (TN)和False Negative (FN)四个参数进行计算.TP表示模型将样本预测为正例,并且实际标签也为正例,即模型预测正确的标签;FP表示模型将样本预测为正例,但是实际标签为负例,即模型预测错误的标签;TN表示模型将样本预测为负例,并且实际标签也为负例,即模型预测正确的标签;FN表示模型将样本预测为负例,但实际标签为正例,即模型预测错误的标签.

本文采用的评估指标包括F1,AUC,Ign F1以及Ign AUC.

3.5 基准模型

实验使用的基准模型主要完成实体识别和关系抽取两个任务.对于实体识别任务,选用多种经典模型进行对比,包括LSTM5,BiLSTM6,HIN⁃GloVe7,CNN12,Context⁃Aware21,CFER⁃GloVe27,SSAN⁃BERT⁃base28和GAIN+SIEF29.这些模型在文本分类和实体关系抽取任务中表现出色,已被广泛应用于自然语言处理领域.对于关系抽取任务,选择HIN⁃BERT⁃base7,GCNN8,LSR⁃GloVe22,GAT23,EOG24,AGGCN25,GAIN⁃GloVe26,LSR+BERT⁃base30和CGM2IR⁃RoBERTa31作为基准模型.其中,LSR+BERT⁃base模型在文档级实体关系抽取任务中具有较高的影响力,已成为该领域的重要研究方向.

总体上,本文实验选用多种经典和代表性模型,对后续研究具有重要的参考价值.

4 实验结果与分析

针对命名实体识别和关系抽取两个任务进行实验,并通过对BoBGSAL⁃Net模型在DocRED和AlSiaRED数据集上的多方面评估来进行模型性能的分析.

实验1:BoBGSAL⁃Net在DocRED数据集上的命名实体识别对比实验.

为了评估本文提出的BoBGSAL⁃Net模型在公开数据集上的命名实体识别性能,在公开数据集DocRED上与基准模型进行对比实验,实验结果如表3所示,表中黑体字表示结果最优.由表可知,BoBGSAL⁃Net模型在DocRED数据集上的命名实体识别各项指标均优于基准模型,这可能是因为MMLG策略能够捕捉文档中不同实体间的复杂信息交互,同时ERG模块融合了路径推理机制,能够自动学习实体之间的多个关系路径,导致BoBGSAL⁃Net模型在DocRED数据集上表现有所提升.

表3   BoBGSAL⁃Net模型和其他模型在DocRED数据集上的命名实体识别实验结果的对比

Table 3  Experimental results of named entity recognition by BoBGSAL⁃Net and other models on the DocRED dataset

模型验证集测试
Ign F1Ign AUCF1AUCIgn F1F1
BoBGSAL⁃Net54.33%53.75%55.84%54.97%54.14%55.08%
CNN[12]41.58%36.85%43.45%39.39%40.33%42.26%
LSTM[5]48.44%46.62%50.68%49.48%47.71%50.07%
BiLSTM[6]48.87%47.61%50.94%50.26%48.78%51.06%
Context⁃Aware[21]48.94%47.22%51.09%50.17%48.40%50.70%
HIN⁃GloVe[7]51.06%52.95%51.15%53.30%
CFER⁃GloVe[27]54.29%55.31%53.70%54.06%
SSAN⁃BERT⁃base[28]54.03%54.95%53.44%53.16%
GAIN+SIEF[29]53.82%54.24%53.87%54.79%

新窗口打开| 下载CSV


实验2:BoBGSAL⁃Net模型在AlSiaRED数据集上的命名实体识别对比实验.

对BoBGSAL⁃Net模型在铝硅合金材料实体识别任务上的性能进行了验证,并在AlSiaRED数据集上进行了命名实体识别实验.实验结果如表4所示,表中黑体字表示结果最优.

表4   BoBGSAL⁃Net模型和其他模型在AlSiaRED数据集上的命名实体识别实验结果的对比

Table 4  Experimental results of named entity recognition by BoBGSAL⁃Net and other models on the AlSiaRED dataset

模型验证集测试
Ign F1Ign AUCF1AUCIgn F1F1
BoBGSAL⁃Net53.66%53.19%55.39%55.23%52.55%54.83%
CNN[12]39.53%31.47%40.15%32.44%38.73%39.20%
LSTM[5]41.34%40.43%43.03%41.09%41.26%42.97%
BiLSTM[6]44.08%43.65%46.57%45.13%43.24%45.16%
Context⁃Aware[21]46.09%45.36%48.85%47.33%46.13%48.17%
HIN⁃GloVe[7]48.38%50.35%48.24%50.18%
CFER⁃GloVe[27]53.34%54.27%52.45%53.60%
SSAN⁃BERT⁃base[28]53.45%53.25%52.34%53.27%
GAIN+SIEF[29]53.82%54.24%53.87%53.29%

新窗口打开| 下载CSV


由表可知,BoBGSAL⁃Net模型在AlSiaRED数据集上的表现优于基准模型,但和其在Doc⁃RED数据集上的表现相比,性能有所下降.这可能是因为作者实验室构建的数据集包含更多的实体类型且文本长度较长,BoBGSAL⁃Net模型训练和推理的时间开销较大,导致性能指标的下降.

实验3:BoBGSAL⁃Net模型在DocRED数据集上的关系抽取对比实验.

为了评估BoBGSAL⁃Net模型在DocRED数据集上的关系抽取任务性能,进行了相应的对比实验,结果如表5所示,表中黑体字表示结果最优.由表可知,BoBGSAL⁃Net模型在DocRED数据集上的关系抽取任务中,性能比基准模型更好,主要原因是该模型中的MMLG模块和ERG模块都具有针对实体之间关系信息的感知结构.与GAT和GCNN相比,BoBGSAL⁃Net具有更好的全局上下文建模能力,能够更好地理解多个句子之间的实体关系.BoBGSAL⁃Net结合了图结构、实体关系路径推理和注意力机制,能够自动学习实体之间的多个关系路径.与EOG和AGGCN相比,BoBGSAL⁃Net在捕捉实体之间的多层语义关系时表现更为突出.由表可知,BoBGSAL⁃Net模型在DocRED数据集上的性能不如LSR+BERT⁃base和CGM2IR⁃RoBERTa,这可能是因为BoBGSAL⁃Net具有更复杂的模型结构,导致在训练过程中需要更多的计算资源和参数调优,而不当的调优会影响性能.

表5   BoBGSAL⁃Net模型和其他模型在DocRED数据集上的关系抽取实验结果的对比

Table 5  Experimental results of relation extraction by BoBGSAL⁃Net and other models on the DocRED dataset

模型验证集测试
Ign F1Ign AUCF1AUCIgn F1F1
GAT[23]45.17%51.44%47.36%49.15%
GCNN[8]46.22%51.52%49.59%51.62%
EOG[24]45.94%52.15%49.48%51.82%
AGGCN[25]46.29%52.47%48.89%51.45%
LSR⁃GloVe[22]48.82%55.17%52.15%54.18%
GAIN⁃GloVe[26]53.05%52.57%55.29%55.44%52.66%55.08%
HIN⁃BERT⁃base[7]54.29%55.43%53.70%55.60%
LSR+BERT⁃base[30]58.93%60.89%57.71%59.94%
CGM2IR⁃RoBERTa[31]62.03%63.95%61.96%62.89%
BoBGSAL⁃Net54.32%53.47%55.20%54.43%53.62%54.57%
BoBGSAL⁃Net+GloVe56.15%54.39%57.33%57.63%54.35%56.97%
BoBGSAL⁃Net+BiLSTM60.62%58.27%61.45%59.72%58.47%60.54%
BoBGSAL⁃Net+BERT65.20%64.47%64.38%64.58%62.43%65.32%

新窗口打开| 下载CSV


此外,在引入词嵌入模型后,性能与BoBGSAL⁃Net相比,有显著提升,尤其在BoBGSAL⁃Net与BERT相结合的BoBGSAL⁃Net+BERT模型中,性能表现最为出色.可能因为BoBGSAL⁃Net+BERT模型将图结构与BERT的预训练语义表示相结合,从而更加充分地整合不同层次的信息.通过ERG模块的路径推理机制,该模型能够更准确地学习实体关系的多个关系路径,增强对复杂关系的抽取能力,使得该模型在关系抽取任务中表现出色.

实验4:BoBGSAL⁃Net模型在AlSiaRED数据集上的关系抽取对比实验.

为了评估BoBGSAL⁃Net模型在作者实验室构建的数据集上的关系抽取性能,设置该实验对模型性能进行测试,实验结果如表6所示,表中黑体字表示结果最优.由表可知,在AlSiaRED数据集上的关系抽取任务中,BoBGSAL⁃Net模型的性能和其他模型相比,提升更显著.此外,BoBGSAL⁃Net模型结合了MMLG策略和BERT的全局上下文建模,能够更准确地捕捉整个文档的实体关系,在语义和语法更复杂以及长句子更多的AlSiaRED数据集中表现更好.

表6   BoBGSAL⁃Net模型和其他模型在AlSiaRED数据集上的关系抽取实验结果的对比

Table 6  Experimental results of relation extraction by BoBGSAL⁃Net and other models on the AlSiaRED dataset

模型验证集测试
Ign F1Ign AUCF1AUCIgn F1F1
BoBGSAL⁃Net+BERT66.14%65.59%65.40%65.32%64.73%66.04%
GAT[23]46.33%48.20%45.54%47.39%
GCNN[8]48.46%50.36%47.85%49.83%
EOG[24]45.57%46.91%45.31%46.32%
AGGCN[25]49.19%50.95%48.89%49.63%
LSR⁃GloVe[22]51.35%53.44%51.27%53.29%
GAIN⁃GloVe[26]57.88%56.47%59.29%57.89%57.57%59.14%
HIN⁃BERT⁃base[7]53.62%54.44%52.56%54.72%
LSR+BERT⁃base[30]59.23%61.47%59.62%60.20%
CGM2IR⁃RoBERTa[31]63.53%62.74%63.38%63.26%
BoBGSAL⁃Net55.43%54.64%56.51%55.78%54.84%55.73%
BoBGSAL⁃Net+GloVe60.45%56.47%59.29%57.89%57.57%59.14%
BoBGSAL⁃Net+BiLSTM61.58%59.73%62.50%60.48%59.76%61.48%

新窗口打开| 下载CSV


实验5:BoBGSAL⁃Net模型在DocRED数据集上的实体抽取对比实验.

为了评估文档级实体抽取相对文档⁃句子⁃语言三级实体抽取在DocRED数据集上的实体抽取性能,本文设置该实验对模型性能进行测试,实验结果如表7所示,表中黑体字表示结果最优.由表可知,BoBGSAL⁃Net+BERT模型在DocRED数据集上的实体抽取任务性能优于其他模型.相较于文档⁃句子⁃语言三级实体抽取模型,BoBGSAL⁃Net+BERT模型不仅是将不同模块简单地串联起来,而且将图结构与语义表示紧密结合,使模型更深入地理解实体关系.在文档级实体抽取中,BoBGSAL⁃Net综合考虑整个文档的语境,更好地理解实体的上下文关系,由于直接在文档级别进行抽取,相对于独立处理文档、句子和语言级别的模型,其整体处理速度可能更快.这种整合性使得BoBGSAL⁃Net+BERT能够更好地理解文本中的复杂关系,提升了抽取质量.

表7   BoBGSAL⁃Net模型和其他模型在DocRED数据集上的实体抽取实验结果的对比

Table 7  Experimental results of entity extraction by BoBGSAL⁃Net and other model on the DocRED dataset

模型验证集测试
Ign F1Ign AUCF1AUCIgn F1F1
BoBGSAL⁃Net+BERT66.14%65.59%65.40%65.32%64.73%66.04%
DocRED⁃CNN[32]40.27%32.75%43.35%34.17%36.44%42.33%
MRN+BERT[33]59.47%60.20%59.52%61.74%
DRN⁃GloVe[34]54.61%56.49%54.35%56.33%
BoBGSAL⁃Net55.43%54.64%56.51%55.78%54.84%55.73%
BoBGSAL⁃Net+GloVe60.45%56.47%59.29%57.89%57.57%59.14%
BoBGSAL⁃Net+BiLSTM61.58%59.73%62.50%60.48%59.76%61.48%

新窗口打开| 下载CSV


5 结论

本文提出一种文档级实体关系抽取方法,即基于双图结构的聚合逻辑网络BoBGSAL⁃Net.该方法首先构建一个MMLG模块,模拟整个文档中不同提及之间的复杂信息交互,提高模型对文档级实体关系的感知能力.其次,构建了ERG模块,该模块融合路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.

本文基于MMLG和ERG提出聚合逻辑推理路径以推断实体之间的关系,并进行分类预测.在公开数据集DocRED以及作者实验室构建的数据集AlSiaRED上进行对比实验,结果表明BoBGSAL⁃Net+BERT在文档级实体关系抽取任务中,性能优于其他所有模型,与CGM2IR⁃RoBERTa模型相比,F1指标提升2.66%,在文档级关系抽取任务中性能得到提升.

未来将探索并优化本文模型,进一步提高实体关系抽取性能.针对多语言文档的场景,通过跨语言模型迁移等技术实现对不同语言的文档级实体关系抽取,提高模型的通用性和可扩展性.

参考文献

Yuan C SHuang H YFeng Cet al.

Document⁃level relation extraction with entity⁃selection attention

Information Sciences,2021568):163-174.

[本文引用: 1]

Zhang Q QChen M DLiu L Z.

A review on entity relation extraction ∥ Proceedings of the 2nd Inter⁃national Conference on Mechanical,Control and Computer Engineering

Harbin,China: IEEE,2017178-183.

[本文引用: 1]

Li Z HYang Z HXiang Yet al.

Exploiting sequence labeling framework to extract document⁃level relations from biomedical texts

BMC Bioinformatics,202021(1):125.

[本文引用: 1]

Han X YWang L.

A novel document⁃level relation extraction method based on BERT and entity information

IEEE Access,2020(8):96912-96919.

[本文引用: 1]

Geng Z QChen G FHan Y Met al.

Semantic relation extraction using sequential and tree⁃structured LSTM with attention

Information Sciences,2020509):183-192.

[本文引用: 4]

Luo LYang Z HYang Pet al.

An attention⁃based BiLSTM⁃CRF approach to document⁃level chemical named entity recognition

Bioinformatics,201834(8):1381-1388.

[本文引用: 5]

Tang H ZCao Y NZhang Z Yet al.

HIN:Hierarchical inference network for document⁃level relation extraction∥Proceedings of the 24th Pacific⁃Asia Conference on Knowledge Discovery and Data Mining

Springer Berlin Heidelberg,2020197-209.

[本文引用: 7]

Najibi MRastegari MDavis L S.

G⁃CNN:An iterative grid based object detector ∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition

Las Vegas,NV,USA:IEEE,20162369-2377.

[本文引用: 4]

Gu J XWang Z HKuen Jet al.

Recent advances in convolutional neural networks

Pattern Recognition,201877):354-377.

[本文引用: 1]

Li Z WLiu FYang W Jet al.

A survey of convolutional neural networks:Analysis,applications,and prospects

IEEE Transactions on Neural Networks and Learning Systems,202233(12):6999-7019.

O'Shea K, Nash R.

An introduction to convolutional neural networks

2015,arXiv:1511.08458.

Lavin AGray S.

Fast algorithms for convolutional neural networks∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition

Las Vegas,NV,USA:IEEE,20164013-4021.

[本文引用: 4]

Huang J WAbadi D J.

Leopard:Lightweight edge⁃oriented partitioning and replication for dynamic graphs

Proceedings of the VLDB Endowment,20169(7):540-551.

[本文引用: 1]

刘英莉,吴瑞刚,么长慧.

铝硅合金实体关系抽取数据集的构建方法

浙江大学学报(工学版),202256(2):245-253.

[本文引用: 2]

Liu Y LWu R GYao C Het al.

Construction method of extraction dataset of Al⁃Si alloy entity relationship

Journal of Zhejiang University (Engineering Science),202256(2):245-253.

[本文引用: 2]

Sheng D MWang DShen Yet al.

Summarize before aggregate:A global⁃to⁃local heterogeneous graph inference network for conversational emotion recognition∥Proceedings of the 28th International Conference on Computational Linguistics

Barcelona,Spain: International Committee on Computational Linguistics,20204153-4163.

[本文引用: 1]

Auten ATomei MKumar R.

Hardware acceleration of graph neural networks∥ Proceedings of 2020 57th ACM/IEEE Design Automation Conference (DAC)

San Francisco,CA,USA:IEEE,20201-6.

Abadal SJain AGuirado Ret al.

Computing graph neural networks:A survey from algorithms to accelerators

ACM Computing Surveys,202254(9):191.

[本文引用: 1]

Pennington JSocher RManning C.

GloVe:Global vectors for word representation ∥ Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing

Doha,Qatar:ACL,20141532-1543.

[本文引用: 1]

Tanvir RShawon T RMehedi H Ket al.

A GAN⁃BERT based approach for bengali text classification with a few labeled examples∥ Proceedings of the 19th International Symposium on Distributed Computing and Artificial Intelligence

Springer Berlin Heidelberg,202220-30.

[本文引用: 1]

Niu Z YZhong G QYu H.

A review on the attention mechanism of deep learning

Neuro⁃computing,2021452):48-62.

[本文引用: 1]

Harter AHopper ASteggles Pet al.

The anatomy of a context⁃aware application

Wireless Networks,20028(2-3):187-197.

[本文引用: 3]

Mrityunjay K, Ravindra G.

Learning to fingerprint the latent structure in question articulation∥2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA).

Orlando,FL,USA:IEEE,201873-80.

[本文引用: 3]

VeličkovićCucurull GCasanova Aet al.

Graph attention networks

2017,arXiv:1710.10903.

[本文引用: 3]

Chen LTian F L.

Skew⁃rank of an oriented graph with edge⁃disjoint cycles

Linear and Multilinear Algebra,201664(6):1197-1206.

[本文引用: 3]

Li Z XSun Y RZhu J Wet al.

Improve relation extraction with dual attention⁃guided graph convolutional networks

Neural Computing and Applications,202133(6):1773-1784.

[本文引用: 3]

Zeng S, Xu R, Chang Bet al.

Double graph based reasoning for document⁃level relation extraction

2020,arXiv:2009.13752.

[本文引用: 3]

Dai D MRen JZeng Set al.

Coarse⁃to⁃fine entity representations for document⁃level relation extraction

2020,arXiv:2012.02507.

[本文引用: 3]

Xu B FWang QLyu Y Jet al.

Entity structure within and throughout:Modeling mention dependencies for document⁃level relation extraction ∥ Proceedings of the 35th AAAI Conference on Artificial Intelligence

Online:AAAI Press,202114149-14157.

[本文引用: 3]

Xu WChen K HMou L Let al.

Document⁃level relation extraction with sentences importance estimation and focusing

Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Seattle,WA,United StatesACL20222920-2929.

[本文引用: 3]

Nan G SGuo Z JSekuli Iet al.

Reasoning with latent structure refinement for document⁃level relation extraction

Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. OnlineACL20201546-1557DOI:10.18653/v1/2020.acl-main.141 .

[本文引用: 3]

Zhao CZeng D JXu Let al.

Document⁃level relation extraction with context guided mention integration and inter⁃pair reasoning

.2022, arXiv:2201.04826.

[本文引用: 3]

Yao YYe D MLi Pet al.

DocRED:A large⁃scale document⁃level relation extraction dataset∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics

Florence,Italy:ACL,2019:764-777,DOI:10.18653/v1/P19-1074.

[本文引用: 1]

Li J YXu KLi Fet al.

MRN:A locally and globally mention⁃based reasoning network for document⁃level relation extraction∥Proceedings of the Findings of the Association for Computational Linguistics

Online:ACL, 20211359-1370.

[本文引用: 1]

Xu WChen K HZhao T J.

Discriminative reasoning for document⁃level relation extraction ∥Proceedings of the Findings of the Association for Computational Linguistics

. ACL, 20211653-1663DOI:10.18653/v1/2021.findings-acl.144 .

[本文引用: 1]

/