南京大学学报(自然科学版) ›› 2019, Vol. 55 ›› Issue (6): 1010–1019.doi: 10.13232/j.cnki.jnju.2019.06.013

• • 上一篇    下一篇

汉语句法分析中的论元关系模型研究

刘作国,陈笑蓉()   

  1. 贵州大学计算机科学与技术学院,贵阳,550025
  • 收稿日期:2019-07-24 出版日期:2019-11-30 发布日期:2019-11-29
  • 通讯作者: 陈笑蓉 E-mail:xrchengz@163.com
  • 基金资助:
    国家自然科学基金(61363028)

Research on argument relationship model based in syntactic analyses

Zuoguo Liu,Xiaorong Chen()   

  1. College of Computer Science and Technology,Guizhou University,Guiyang,550025,China
  • Received:2019-07-24 Online:2019-11-30 Published:2019-11-29
  • Contact: Xiaorong Chen E-mail:xrchengz@163.com

摘要:

近年来,实体挖掘技术已经成为文本信息处理领域的研究热点,有广泛的应用前景,但目前实体挖掘技术通常缺少句法层面的分析,很难从语句中准确抽取关键性词汇,并且抽取实体的过程容易忽略主客体的动作关联.针对这一问题,建立一个适用于汉语句法分析的论元关系模型.使用多值递归函数识别句型结构并划分句法功能语块,根据句型结构抽取动作的施体和受体,建立论元关系模型.多值递归函数的分析窗口涵盖整个语句,函数递归地探索整个解空间,获取全局最优解.此外,层次分解机制可以识别处理嵌套句和歧义句,能够抽取出更有价值的句法成分,对长语句和复杂语句有更好的适应能力.

关键词: 句法分析, 论元关系, 语块分割, 句型识别

Abstract:

In recent years,the technology of entity extraction has become a hot research point in field of text information processing for its broad application prospect. Currently,the technology is usually lack of syntactic analyses so that it is not only hard to extract crucial words from sentences,but also easy to ignore action relations between subjects and objects during the period of extracting entities. To solve this problem,this paper establishes an Argument Relationship Model (ARM) which orients to Chinese syntactic analyses. Multivalued Recursive Functions (MRF) is taken into recognitions of sentence patterns and segment syntactic function chunks. Then senders and receptors of actions are extracted and ARM is established on the basis of sentence patterns. Analyzing window of MRF covers the whole sentence and it can explore the whole solution space recursively for its global optimal solution. What's more,the Layer Decomposition Mechanism is useful for recognizing and processing nested or ambiguous sentences in order to extract more valuable syntactic components from long or complex sentences.

Key words: syntactic analyses, argument relationship, chunks segment, sentence patterns recognition

中图分类号: 

  • TP391

图1

汉语句法成分对应关系"

图2

汉语句型及论元关系"

表1

SCFE描述"

关系 关系模式 SCFE ARM
G G Adv+G+Com+Adv G( )
aG Adv+Sub+Adv+G+Com+Adv G(Sub)
sG Adv+RS+Adv+G+Com+Adv G(RS)
Gb Adv+G+Com+Obj+Adv G( λ ,Obj)
Gs Adv+G+Com+RS+Adv G( λ ,RS)
aGb Adv+Sub+Adv+G+Com+Obj+Adv G(Sub,Obj)
aGs Adv+Sub+Adv+G+Com+RS+Adv G(Sub,RS)
sGb Adv+RS+Adv+G+Com+Obj+Adv G(RS,Obj)
s 1 G s 2 Adv+ R S 1 +Adv+G+Com+ R S 2 +Adv G( R S 1 , R S 2 )
SV s 1 s 2 R S 1 + R S 2

R(Sub( R S 1 ),Obj( R S 1 )),

R(Sub( R S 1 ),Obj( R S 2 ))

表2

汉语语法现象赋权"

语言现象 p i 权值 w e i g h t i
时态修饰语 +1
体态修饰语 +1
省略主谓宾 -1
成分位移 -2
复合语句 -2

图3

句法分析树"

图4

语句层次分解"

图5

使用三种分析器进行句法分析的UAS指标"

图6

使用三种分析器进行句法分析的LAS指标"

图7

ARM分析器进行句法分析的UAS和LAS的对比"

表3

测试子集划分"

子集 语句长度(词) 平均长度(词)
1 1~5 3.8
2 6~10 7.9
3 11~15 13.3
4 16~20 18.1
5 21以上 22.2

图8

三种分析器在不同语句长度下的LAS "

表4

ARM分析器在人工标注集中的论元关系的挖掘结果"

关系 频数 5分 3分 1分 0分 平均
G 1582 1184 279 108 11 4.34
D 381 291 69 16 5 4.40
C 109 80 14 9 6 4.14
L 126 88 21 13 4 4.10
E 89 68 11 8 2 4.28
SV 247 171 22 46 8 3.91
CS 71 51 14 5 1 4.25
总计 2605 1933 430 205 37 4.28

图9

不同语句长度ARM分析器抽取论元关系的评分变化"

表5

ARM分析器在综合实验中的论元关系挖掘结果"

关系 频数 5分 3分 1分 0分 平均
G 1582 1082 317 161 22 4.12
D 381 207 112 45 17 3.72
C 109 74 16 12 7 3.94
L 126 83 23 15 5 3.96
E 89 64 12 10 3 4.11
SV 247 146 54 33 14 3.74
CS 71 40 22 4 5 3.80
总计 2605 1696 556 280 73 4.00

图10

ARM分析器在综合实验中抽取论元关系的评分变化"

1 Liu B Y , Wang C R , Wang Y R ,et al . Microblog topic mining based on FR?DATM. Chinese Journal of Electronics,2018,27(2):334-341.
2 Shen H Y , Liu G X , Wang H Y ,et al . Social Q&A:an online social network based question and answer system. IEEE Transactions on Big Data,2017,3(1):91-106.
3 Ye H , Chao W H , Luo Z C ,et al . Jointly extracting relations with class ties via effective deep ranking. 2017,arXiv:1612.07602.
4 赵志滨,石玉鑫,李斌阳 . 基于句法分析与词向量的领域新词发现方法. 计算机科学,2019,46(6):29-34.
Zhao Z B , Shi Y X , Li B Y . . Newly?emerging domain word detection method based on syntactic analysis and term vector. Computer Science,2019,46(6):29-34.
5 刘倩,伍大勇,刘悦 等 . 结合全局特征的命名实体属性值抽取. 计算机研究与发展,2016,53(4):941-948.
Liu Q , Wu D Y , Liu Y ,et al . Extracting attribute values for named entities based on global feature. Journal of Computer Research and Development,2016,53(4):941-948.
6 Sun C Z , Wu Y B , Lan M ,et al . Extracting entities and relations with joint minimum risk training∥Proceedings of EMNLP 2018. Brussels,Belgium:ACL,2018:2256-2265.
7 Bekoulis G , Deleu J , Demeester T ,et al . Adversarial training for multi?context joint entity and relation extraction. arXiv:1808.06876,2018.
8 Feng W F , Zhuo H H , Kambhampati S . Extracting action sequences from texts based on deep reinforcement learning. 2018,arXiv:1803.02632.
9 Loli E V , Pe?a J T , Condori R L . An LDA?lexical syntactical approach for events and features extraction of earthquakes from Spanish and English tweets∥Proceedings of the 4th Annual International Symposium on Information Management and Big Data (SIMBig 2017). Lima,Peru:CEUR?WS,2017:190-197.
10 杨丹,申德荣,聂铁铮 等 . 异构信息空间中实体关联关系挖掘算法CFRQ4A. 计算机研究与发展,2014,51(4):895-904.
Yang D , Shen D R , Nie T Z ,et al . Entity association mining algorithm CFRQ4A in heterogeneous information spaces. Journal of Computer Research and Development,2014,51(4):895-904.
11 朱德熙 . 语法答问. 北京:商务印书馆,1985,1-5.
12 Liu W F , Liu P Y , Yang Y Z ,et al . An attention?based syntax?tree and tree?LSTM model for sentence summarization. International Journal of Performability Engineering,2017,13(5):775-782.
13 谷波,王瑞波,李济洪 等 . 基于RNN的中文二分结构句法分析. 中文信息学报,2019,33(1):35-45.
Gu B , Wang R B , Li J H ,et al . RNN based Chinese parsing for binary tree structure. Journal of Chinese Information Processing,2019,33(1):35-45.
14 Jiang C J , Peng H , Ma Q L ,et al . Automatic summarization for Chinese text based on combined words recognition and paragraph clustering∥2010 3rd International Symposium on Intelligent Information Technology and Security Informatics.Jinggangshan,China:IEEE,2010:591-594.
15 朱德熙 . 语法讲义. 北京:商务印书馆,1982,7-15.
16 Huang C T J , Li Y H A , Li Y F . The syntax of Chinese. Cambridge,UK:Cambridge University,2009,23-31.
17 尹德春 . 基于语言实体关系模型的汉语句法分析. 博士学位论文. 北京:北京理工大学,2014.
Yin D C . Chinese syntactic parsing based on linguistic entity relationship model. Ph.D.DissertationBeijing:Beijing Institute of Technology,2014.
18 赵元任 . 汉语口语语法. 吕叔湘译. 北京:商务印书馆,1979,31-37.
19 Qiu L K , Zhang Y . ZORE:a syntax?based system for Chinese open relation extraction∥The 2014 Conference on Empirical Methods in Natural Language Processing.Doha,Qatar:Association for Computational Linguistics,2014:1870-1880.
[1] 朱伟,张帅,辛晓燕,李文飞,王骏,张建,王炜. 结合区域检测和注意力机制的胸片自动定位与识别[J]. 南京大学学报(自然科学版), 2020, 56(4): 591-600.
[2] 李昭阳,龚安民,伏云发. 基于EEG脑网络下肢动作视觉想象识别研究[J]. 南京大学学报(自然科学版), 2020, 56(4): 570-580.
[3] 郑建兴,李沁文,王素格,李德玉. 基于翻译模型的异质重边信息网络链路预测研究[J]. 南京大学学报(自然科学版), 2020, 56(4): 541-548.
[4] 黄雨婷,徐媛媛,张恒汝,闵帆. 融合标签结构依赖性的标签分布学习[J]. 南京大学学报(自然科学版), 2020, 56(4): 524-532.
[5] 任睿,张超,庞继芳. 有限理性下多粒度q⁃RO模糊粗糙集的最优粒度选择及其在并购对象选择中的应用[J]. 南京大学学报(自然科学版), 2020, 56(4): 452-460.
[6] 陈俊芬,赵佳成,韩洁,翟俊海. 基于深度特征表示的Softmax聚类算法[J]. 南京大学学报(自然科学版), 2020, 56(4): 533-540.
[7] 王宝丽,姚一豫. 信息表中约简补集对及其一般定义[J]. 南京大学学报(自然科学版), 2020, 56(4): 461-468.
[8] 陈石,张兴敢. 基于小波包能量熵和随机森林的级联H桥多电平逆变器故障诊断[J]. 南京大学学报(自然科学版), 2020, 56(2): 284-289.
[9] 周昊,沈庆宏. 基于改进音形码的中文敏感词检测算法[J]. 南京大学学报(自然科学版), 2020, 56(2): 270-277.
[10] 罗春春,郝晓燕. 基于双重注意力模型的微博情感倾向性分析[J]. 南京大学学报(自然科学版), 2020, 56(2): 236-243.
[11] 王露,王士同. 改进模糊聚类在医疗卫生数据的Takagi⁃Sugeno模糊模型[J]. 南京大学学报(自然科学版), 2020, 56(2): 186-196.
[12] 陈睿, 伏云发. 基于EEG握力变化及想象单次识别研究[J]. 南京大学学报(自然科学版), 2020, 56(2): 159-166.
[13] 杨红鑫,杨绪兵,张福全,业巧林. 半监督平面聚类算法设计[J]. 南京大学学报(自然科学版), 2020, 56(1): 9-18.
[14] 刘胜久,李天瑞,珠杰,刘佳. 带权图的多重分形研究[J]. 南京大学学报(自然科学版), 2020, 56(1): 85-97.
[15] 张银芳,于洪,王国胤,谢永芳. 一种用于数据流自适应分类的主动学习方法[J]. 南京大学学报(自然科学版), 2020, 56(1): 67-73.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 缪长健, 施斌, 郑兴, 王湛, 魏广庆. 海上超长PHC管桩BOFDA内力测试[J]. 南京大学学报(自然科学版), 2018, 54(6): 1057 -1063 .
[2] 林 銮,陆武萍,唐朝生,赵红崴,冷 挺,李胜杰. 基于计算机图像处理技术的松散砂性土微观结构定量分析方法[J]. 南京大学学报(自然科学版), 2018, 54(6): 1064 -1074 .
[3] 段新春,施 斌,孙梦雅,魏广庆,顾 凯,冯晨曦. FBG蒸发式湿度计研制及其响应特性研究[J]. 南京大学学报(自然科学版), 2018, 54(6): 1075 -1084 .
[4] 梅世嘉,施 斌,曹鼎峰,魏广庆,张 岩,郝 瑞. 基于AHFO方法的Green-Ampt模型K0取值试验研究[J]. 南京大学学报(自然科学版), 2018, 54(6): 1085 -1094 .
[5] 卢 毅,于 军,龚绪龙,王宝军,魏广庆,季峻峰. 基于DFOS的连云港第四纪地层地面沉降监测分析[J]. 南京大学学报(自然科学版), 2018, 54(6): 1114 -1123 .
[6] 胡 淼,王开军,李海超,陈黎飞. 模糊树节点的随机森林与异常点检测[J]. 南京大学学报(自然科学版), 2018, 54(6): 1141 -1151 .
[7] 洪思思,曹辰捷,王 喆*,李冬冬. 基于矩阵的AdaBoost多视角学习[J]. 南京大学学报(自然科学版), 2018, 54(6): 1152 -1160 .
[8] 魏 桐,童向荣. 基于加权启发式搜索的鲁棒性信任路径生成[J]. 南京大学学报(自然科学版), 2018, 54(6): 1161 -1170 .
[9] 秦 娅, 申国伟, 赵文波, 陈艳平. 基于深度神经网络的网络安全实体识别方法[J]. 南京大学学报(自然科学版), 2019, 55(1): 29 -40 .
[10] 马宏亮, 万建武, 王洪元. 一种嵌入样本流形结构与标记相关性的多标记降维算法[J]. 南京大学学报(自然科学版), 2019, 55(1): 92 -101 .