融合依存信息和卷积神经网络的越南语新闻事件检测

doi:10.13232/j.cnki.jnju.2020.01.014

融合依存信息和卷积神经网络的越南语新闻事件检测

王吉地¹^,², 郭军军¹^,², 黄于欣¹^,², 高盛祥^,¹^,², 余正涛¹^,², 张亚飞¹^,²

1. 昆明理工大学信息工程与自动化学院，昆明，650500

2. 云南省人工智能重点实验室，昆明理工大学，昆明，650500

Vietnamese news event detection based on converge dependent information and convolutional neural networks

Wang Jidi¹^,², Guo Junjun¹^,², Huang Yuxin¹^,², Gao Shengxiang^,¹^,², Yu Zhengtao¹^,², Zhang Yafei¹^,²

1. Faculty of Information Engineering and Automation，Kunming University of Science and Technology，Kunming，650500，China

2. Yunnan Key Laboratory of Artificial Intelligence，Kunming University of Science and Technology，Kunming，650500，China

通讯作者: E⁃mail：gaoshengxiang.yn@foxmail.com

收稿日期: 2019-08-20 网络出版日期: 2020-01-09

基金资助:

国家自然科学基金.  61762056.  61732005.  61761026.  61472168.  61672271.  61972186
国家重点研发计划.  2018YFC0830105.  2018YFC0830100
云南省高新计划专项.  201606
云南省自然科学基金.  2018FB104

Received: 2019-08-20 Online: 2020-01-09

摘要

新闻事件检测是自动检测新闻文本中出现的相关事件，需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN)，针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.

关键词： 新闻事件检测 ; 依存句法信息 ; 卷积神经网络 ; 越南语

Abstract

News event detection automatically detects related events appearing in news. Currently，detecting news events requires a lot of manpower design templates. Implicit semantic information in sentences is difficult to obtain，and there are many ambiguities in identifying trigger words. In this paper，we use the convolutional neural network method of Dependency Parsing Convolutional Neural Networks (DPCNN) to detect sentence⁃level Vietnamese news events. Firstly，the model combines the words' semantics part of speech information，the entity information and the position information in the encoding process. Secondly，the traditional convolution is used to encode the continuous character features，and the convolution of fusion dependent information is used to encode the non⁃continuous character features，thereby implementing event detection. The experimental results show that the method has achieved good results in the detection of Vietnamese leaders travel events.

Keywords： news event detection ; dependency parsing information ; convolutional neural network ; Vietnamese

PDF (676KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王吉地, 郭军军, 黄于欣, 高盛祥, 余正涛, 张亚飞. 融合依存信息和卷积神经网络的越南语新闻事件检测. 南京大学学报（自然科学版）[J], 2020, 56(1): 125-131 doi:10.13232/j.cnki.jnju.2020.01.014

Wang Jidi, Guo Junjun, Huang Yuxin, Gao Shengxiang, Yu Zhengtao, Zhang Yafei. Vietnamese news event detection based on converge dependent information and convolutional neural networks. Journal of nanjing University[J], 2020, 56(1): 125-131 doi:10.13232/j.cnki.jnju.2020.01.014

随着“一带一路”的提出,中越两国共同关注的问题日益增多,相关的新闻报道也随之增多.及时检测越南语新闻中的新闻事件有助于把握新闻导向,获取越南的舆情动态,并作出有效应对.事件检测是自然语言处理的重要信息提取任务，旨在识别文本中指定类型的事件.目前,事件检测研究大都在汉语、英语环境下展开,由于越南语属资源稀缺型语种,针对越南语的事件检测暂无人涉及.因此,本文针对越南语领导人出行领域新闻事件进行检测.

事件检测主要由两部分子任务组成:(1)触发词的检测,识别出句子中的触发词;(2)根据触发词进行分类,确定事件句所表示的事件类型^[1].分析越南语的构词特点,每一个音节常常是一个有意义的单位,可以独立使用,每个单词又可作为构成多音节词的基础,绝大部分多音节词是双音节,在进行触发词识别时会存在歧义的问题,触发词在不同文本中属于不同事件类型.例如:

S1:Một triệu người tị nạn ở Việt Nam,chỉ có Trung Quốc đã đứng ra cứu trợ.

译文:越南百万难民,只有中国出面救济.

S1中虽然包含出席活动事件的触发词“đứng ra(出面)”,但通过对事件句的分析可知,事件句中并不包含出席活动事件.事件检测的准确性主要依赖于对触发词的正确识别和事件句语义信息的充分理解.

目前大多是采用深度学习来进行事件检测,可以充分提取事件句的局部特征.但由于越南语独特的语言特征，如句法结构中主语在谓语之前、宾语和补语在动词之后、名词修饰语一般在名词之后,但数词、量词修饰语在名词之前、定语要放在所修饰的中心词之后等^[2],相隔较远的词之间的信息难以捕获.S1中,通过“đứng ra(出面)”的前后词“Trung Quốc(中国)”“cứu trợ(救济)”以及“cứu trợ(救济)”和“người tị nạn(难民)”，这些语义信息就可以帮助判定“đứng ra(出面)”并非领导人出席活动的触发词.

随着对事件检测的研究,高源等^[3]和Massung et al^[4]已经证明,依存句法信息对语义理解以及事件检测有重要的作用.本文提出融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN)模型实现句子级越南语新闻事件检测，如S1中相隔较远的“cứu trợ(救济)”与“người tị nạn(难民)”两词的语义信息可以通过句法信息引入.同时，DPCNN关注连续词之间的特征和有句法关系的非连续词之间的特征,挖掘事件句的深层语义信息,实现对触发词的准确识别,进而实现越南新闻事件的高效检测.

1 相关工作

目前事件检测任务主要基于两类方法：(1)机器学习方法.张炫^[5]提出以狄利克雷过程事件混合模型(Dirichlet Process Event Mixture Model，DPEMM)为核心的事件抽取框架.裴东辉^[6]提出基于支持向量机模型的子事件类别自动识别.高永兵等^[7]针对微博的特征进行TF⁃IDF(Term Frequency⁃Inverse Document Frequency)的改进得出事件提取结果.(2)深度学习方法.与机器学习方法相比,神经网络能自动学习构建特征,可以避免繁琐的特征工程.Nguyen et al^[8]在已有研究的基础上提出一种基于递归神经网络的联合方法进行英文事件抽取.Chen et al^[9]提出动态多池卷积神经网络(Dynamic Multi⁃Pooling Convolutional Neural Network，DMCNN)，解决了句中多个事件的识别以及共享参数匹配的问题.Nguyen and Grishman^[10]使用卷积神经网络对句中的词进行卷积以获得句中隐含的语义信息.但这种连续的卷积无法解决信息依赖问题,有时相隔较远词之间的语义特征反而会有助于事件检测.Nguyen and Grishman^[11]提出NCNN(N⁃Gram Convolutional Neural Network)模型对句子中所有非连续的n个词进行卷积来解决这个问题，但考虑所有的非连续n个单词可能会捕捉到不必要的信息.随着图卷积(Graph Convolutional Networks，GCNs)^[12,13,14]的提出,Nguyen and Grishman^[15]提出基于依存信息的图卷积神经网络和基于实体提及的池化方法用于事件检测,该方法对依存句法信息进行图卷积,解决句中非连续词之间的信息依赖问题.但Nguyen的方法只捕获有句法信息的词之间的关系,忽略了连续词之间的语义信息.

通过分析越南语的语言特性，本文提出融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN)模型,同时采用传统卷积神经网络和融合依存信息的卷积神经网络获取连续词之间的语义信息和相隔较远的词之间的语义信息,既挖掘句子的深层语义信息又避免冗余信息的获取.

2 相关定义

本文对事件的定义如下:

(1)事件:在特定的时间和环境下发生、由若干个角色参与,表现出动作特征的一件事情,由事件触发词与事件参数构成.

(2)事件触发词:能清楚地表达一类事件发生,是触发事件的主要词,通常是单个动词或者名词.例如“Truy cập(出访)”“Tham dự(出席)”“Đềxuất(提出)”“Cuộc họp(会见)”.

(3)事件参数:描述事件发生的时间、地点、人物等信息.

(4)事件类型:将越南语领导人活动新闻事件分为“出访国家”“出席会议”“出席活动”“重要讲话”等五个事件类型和一个非事件类型,其中每个事件类型与多个触发词对应,例如“Đi thăm(访问)”和“Ghé thăm(拜访)”均为“Ra ngoàitruy cập(外出访问)”的触发词.

3 方法

本文将事件检测问题转化为多分类问题,以此来判断句子中是否存在新闻事件,若存在则指出其事件类型.提出的DPCNN由三个部分组成：编码层、卷积层和池化层,如图1所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 DPCNN模型的结构

Fig.1 Model structure of DPCNN

3.1　编码层

首先将句子中的词级信息转换成实值向量作为神经网络的输入.设 $X = \{x_{1},$ $x_{2},$

$x_{3}, ⋯, x_{n}\}$ 是一个长度为n的句子,其中x_i是句子中的第i个词.在自然语言处理任务中,词的语义信息与其在句中的位置有关^[16],词性和实体类型信息对触发词的识别和语义的理解有提升的作用.本文融合词向量、位置向量、词性向量和实体向量作为模型输入.

词向量是一个实值向量,目前有两种常用的表示方式：一种是one⁃hot表示,创建一个词表,并把每个词顺序编号；另一种是基于分布式的词向量.本文采用Mikolov et al^[17]提出的word2vec模型训练方法训练越南语词向量.

由于位置编码可以引入当前词的语义结构信息,本文将位置编码作为编码的一部分,指当前词与触发词的相对位置.例如，S1中“đứng ra(出面)”和“người tị nạn(难民)”之间的相对位置为6.

由于词性和实体类型有助于获取当前的词语意信息,依据侯中熙和杨蓓^[18]提出的方法对越南语进行词性标注,并定义词性嵌入表，将28种词性标签嵌入到词性向量中.

与词性向量类似,依据刘艳超等^[19]提出的方法对越南语进行命名实体识别,定义实体嵌入表,识别出句子中的人名、地名、组织机构名、时间等命名实体,将实体标签嵌入到实体向量中.共有十种实体类型,分为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比).

3.2　卷积层

卷积层可以捕获整个句子的组合语义信息,并将这些有价值的语义压缩到特征映射中.卷积运算中最重要的一个部分就是滤波器w,它可以提取卷积窗内词之间的特征.当卷积核大小为m时,窗口内的m个词 $\{x_{i}, x_{i + 1}, x_{i + 2},$ $⋯,$

$x_{i + m - 1}\}$ 采用x_i_：_i+m-₁表示,得到的卷积特征用c_i表示，如式(1)所示:

c_{i} = f (w x_{i : i + m - 1} + b)

(1)

其中，b(b∈R)是偏置项,f是非线性激活函数,滤波器应用于句子中每个可能的窗口 $\{x_{1 : m}, x_{2 : m + 1},$

$⋯, x_{n + m - 1 : n}\}$ .由于句中的特征并非单一,因此在卷积过程中使用多个滤波器来获取不同特征.当使用k个滤波器 $W = \{w_{1}, w_{2}, ⋯, w_{k}\}$ 时,卷积运算如式(2)所示:

c_{j i} = f (w_{j} x_{i : i + m - 1} + b_{j}), j ∈ [1, k]

(2)

采用李英等^[20]提出的方法构建越南语依存句法树,如图2所示.通过分析可知,“cứu trợ(救济)”和“người tị nạn(难民)”之间的句法关系为“SBV(主谓关系)”，这有助于判断“đứng ra(出面)”并非出席活动事件的触发词.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 S1的依存句法分析结果

Fig.2 Analysis result of S1 by dependency parsing

卷积运算可以捕获窗口内连续词之间的语义信息,却不能捕获窗口外非连续词的特征.本文通过依存句法分析引入窗口外的信息，依存信息用 $D = \{N, E\}$ 表示,其中 $N = \{x_{1}, x_{2}, x_{3}, ⋯, x_{p}\}$

(p≤n)表示句中存在依存关系的所有词节点,有依存关系的两词节点用x_s,t表示，E是两词节点之间边,每个边(x_s,x_t)代表从词节点x_s指向词节点x_t,并且有依存信息标签L(x_s,x_t).例如,图2中节点“cứu trợ(救济)”和“người tị nạn(难民)”之间的有向边依存信息标签为L(x_s,x_t)=L(cứu trợ,người tị nạn)=Datv. Kipf and Welling^[12]提出的方法表示信息流不只是按照标签指示的方向,因此这里添加了自循环(x_s,x_s)和反向边(x_t,x_s).自循环的标签为L(x_s,x_s),反向边的标签为L^(x_t,x_s).特定的依存信息标签具有固定的参数，依存特征的计算如下:

h_{j i} = f (∑ W_{j L (x_{i}, N)} x_{i, N} + b_{L (x_{i}, N)})

(3)

其中，j的范围是1到k,f为非线性激活函数, $W_{L} (x_{i}, N)$ 有三种形式，分别是原始边、反向边、自循环边, $b_{L} (x_{i}, N)$ 为偏置项.最后,将卷积特征和融合依存句法信息的卷积特征拼接，作为当前句特征.如式(4)所示:

E_{j i} = λ c_{j i} + (1 - λ) h_{j i}

(4)

E∈R^k(n-m⁺¹⁾为卷积得到的结果矩阵,k为滤波器的个数,n为句子长度,m为滤波器窗口大小.

3.3　池化层

池化层可以提取卷积特征中的最具代表性的特征.本文选取最大池化的方法如式(5)所示:

E^{*} = E a c h - m a x (E_{1}, E_{2}, E_{3}, ⋯, E_{k})

(5)

k个滤波器,提取每个滤波器中最有价值的局部特征,其他特征值全部抛弃,k个局部特征聚合成一个向量E^*作为事件编码.最后,将事件编码送入全连接层,使用softmax激活函数对E^*进行分类,得到事件的分类概率,根据概率分布对事件的类型进行预测,如式(6)所示:

S_{i} = \frac{e^{E^{*}}}{\sum_{i}^{C} e^{E^{*}}}

(6)

其中，C表示类别个数,i表示类别索引i的范围是1到6.

4 实验

4.1　实验设计

目前为止尚未有可供公开测评的越南语事件检测的语料库.实验语料来源于东南亚舆情分析平台,参考ACE (Automatic Content Extraction)的事件标注体系对语料进行标记，经过去重、筛选以后标注了领导人出行活动领域的越南语新闻文本1233篇,共9576条事件句.将8069条事件句作为训练数据,1507条事件句作为测试集.本文构建的语料中划分了五种事件类型和一种非事件类型,分别为外出访问、领导会见、出席会议、出席活动、发表讲话和无事件类型,对应的触发词如表1所示.

表1 触发词表

Table 1 Trigger vocabulary

事件类型

事件触发词

Ra ngoàitruy cập

外出访问

Đi thăm,Ghé thăm,Truy cập,Nhiệm vụ,Kiểm tra

拜访,访问,出访,走访,探问,考察,探访…

gặp lãnh đạo

高层会见

Họp,Gặp gỡ,Nói chuyện,Tiếp kiến,Gặp nhau,Gặp mặt,Hội đàm

会见,接见,见面,会晤,会谈…

Tham dựsựkiện

出席活动

Tham dự,Đi ra,Tham gia,Sắp xếp,Đến rồi,Tại cuộc họp

出席,出面,参加,列席,到场,到会…

Phát biểu

发表讲话

Bài giảng, xuất bản, nói, trình bày, phát biểu, đề nghị, nói chuyện

演讲,发表,发言,提出,讲话,谈话…

Tổng tuyển cử

换届选举

Đề nghị, bỏ phiếu, Giới thiệu, bầu cử

推举,选举,推选,投票竞选…

新窗口打开| 下载CSV

模型用Tensorflow深度学习框架实现.使用固定长度为25的句子作为输入，即句子长度大于25时截取前25个词，句子长度不足25时则使用特殊字符填充.使用253维的预训练词嵌入,位置嵌入1维,词性嵌入1维,实体类型嵌入1维.本模型采用两层卷积，每层卷积有三个滤波器，共三个卷积通道，卷积核大小分别为3，4，5，卷积步长为1,边界采用全0填充.初始学习率为0.01，使用交叉熵作为损失函数，采用反向传播和Adam优化算法训练模型，随机失活率50%，batch⁃size 50，epoch 50，衰减系数0.96.为了防止过拟合，在分类时加入L2正则项，其系数为3.

4.2　对比实验

采用准确率(P)、召回率(R)和F值(F)作为评价指标.

P = \frac{A}{A + B}

(7)

R = \frac{A}{A + C}

(8)

F = \frac{2 P R}{P + R}

(9)

其中，A为正确识别事件类型的数量,B为错误识别事件类型的数量,C为未被识别到的正确识别事件类型的数量.

4.2.1　卷积层数探究

为探究卷积层数对实验结果的影响,分别采用一层、两层和三层卷积的模型进行实验,找到最优层数.实验结果如表2所示.

表2 卷积层数对实验结果的影响

Table 2 Influence of the number of convolution layers on experimental results

卷积层数	P	R	F
1	74.04%	62.63%	70.08%
2	76.78%	64.25%	71.45%
3	75.53%	59.01%	68.23%

新窗口打开| 下载CSV

由表2可见，当卷积层数为2时效果最佳，准确率、召回率和F值分别为76.78%，64.25%，71.45%.而当卷积层数为3时,模型的性能却有所下降.因此后续实验中模型均采用两层卷积.

4.2.2　编码特征探究

针对词嵌入层融入的编码特征进行探究.在去掉某一项编码向量之后,剩余的两类编码向量和词向量融合作为模型的输入,探究不同编码特征组合对模型性能的影响.实验结果如表3所示.

表3 编码特征对实验结果的影响

Table 3 Influence of combination coding characteristics on experimental results

编码特征	P	R	F
词向量、位置向量、词性向量和实体向量	76.78%	64.25%	71.45%
词向量、词性向量和实体向量	74.23%	62.3%	69.2%
词向量、位置向量和实体向量	71.88%	63.4%	69.3%
词向量、位置向量和词性向量	73.46%	64.02%	69.97%

新窗口打开| 下载CSV

由表3可知，去掉某一项编码向量之后,模型的准确率、召回率、Ｆ值与本文模型相比均有所下降,所以同时使用三种编码向量可以提高事件检测的性能.

4.2.3　卷积核大小探究

为探究卷积核大小对模型的影响，分别采用不同大小的三个卷积核获取特征向量，实验结果如表4所示.

表4 卷积核大小对实验结果的影响

Table 4 Influence of convolution kernel size on experimental results

卷积核大小	P	R	F
2，3，4	73.21%	63.59%	66.73%
3，4，5	76.78%	64.25%	71.45%
4，5，6	75.07%	61.22%	70.88%
5，6，7	73.12%	62.25%	67.54%

新窗口打开| 下载CSV

由表4可知，当卷积核为3，4，5时模型效果最佳.较小和较大的卷积核均会降低模型的性能.

4.2.4　不同模型的探究

为证明本文模型在越南语事件检测任务上的效果,将本文模型与传统卷积神经网络、Nguyen et al^[8]提出的循环神经网络模型（Recurrent Neural Networks，RNN）和Nguyen and Grishman^[15]提出的融合依存句法信息的图卷积（GCNs）模型在越南语新闻事件检测任务上作对比，实验结果如表5所示.

表5 不同模型的性能对比

Table 5 Performance of different models

模型	P	R	F
RNN	70.23%	65.89%	67.23%
CNN	73.23%	63.14%	69.23%
GCNs	75.00%	63.92%	70.24%
DPCNN	76.78%	64.25%	71.45%

新窗口打开| 下载CSV

由表5可知，卷积神经网络的模型均优于循环神经网络模型,其中DPCNN和GCNs的模型效果优于CNN,DPCNN优于GCNs.由于循环神经网络存在长距离依赖的问题,会影响事件的准确检测，而引入依存句法信息可以捕获到CNN没有捕获到的信息.GCNs和DPCNN相比,可以看到DPCNN的F值提升了1.21%,说明大部分信息可以被GCNs所捕获,但同时使用连续的卷积神经网络和融合依存句法信息的卷积神经网络则可以捕获到句中更多的隐含信息.

5 结论

本文提出一种越南语新闻事件检测的新型神经网络模型,该模型融合词向量、位置向量、词性向量和命名实体向量来捕捉词级别的语义信息,同时使用传统的卷积神经网络和融合依存句法信息的卷积神经网络获取句子级别语义信息.通过对模型设置不同的参数,将最佳模型与基线方法作比较,证明本文提出的方法在越南语新闻事件的检测中得到较好的效果.但由于越南语的语料尚不完善,本文提出的模型在越南语新闻事件检测任务上仍有提升空间.事件检测是事件抽取的重要环节,后期可在一个模型中同时识别出事件触发词和事件参数,从而实现事件抽取的任务.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Linguistic

D C

ACE (Automatic Content Extrac⁃tion) Chinese annotation guidelines for events，version5.5.1.

http：∥www.ldc.upenn.edu/Projects/ACE，2005．