Chinese spelling errors mainly focuse on both phonetic and glyph similar. General pretrained language models only consider the semantic information of the text,ignoring the Chinese phonetic and glyph features. The latest Chinese Spelling Correction (CSC) methods incorporate pinyin and glyph features via additional networks on the basis of the pretrained language models. Compared with fine⁃tuning pretrained model directly,the improved model does not significantly improve the performance of CSC task. Because of the phonetic and glyphic features trained by the small⁃scale spelling task corpus,there is a serious information asymmetry compared with the rich semantic features obtained by the pre⁃training model. To betterly solve the information asymmetry,this paper tries to apply the multimodal pre⁃training language model ChineseBert to the CSC problem. Since ChineseBert combines phonetic and glyph information into the pre⁃training model building stage,CSC based on ChineseBert not only needn't to build additional networks,but also solve the problem of information asymmetry. The CSC method based on the pretrained model generally cannot deal with continuous errors very well. Therefore,we propose a novel method SepSpell,which firstly uses the probing network to detect potentially incorrect characters,and preserves the phonetic and glyphic features of the characters that may be incorrect to predict the corresponding semantic information of the mask. SepSpell reduces the interference caused by incorrect characters during the prediction process,so as to better handle the problem of continuous errors. Evaluating on three official evaluation datasets prove both methods with very good results.
Cui Fan, Qiang Jipeng, Zhu Yi, Li Yun. Chinese spelling correction method based on ChineseBert. Journal of nanjing University[J], 2023, 59(2): 302-312 doi:10.13232/j.cnki.jnju.2023.02.013
最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题.
Fig.1
Comparison of two different CSC frameworks:(a) existing methods which acquire character multimodal information by adding additional speech and visual extraction networks,(b) CSC performed only through multi⁃model pre⁃trained model
近期,Sun et al[13]提出ChineseBert预训练模型,联合了中文的字形和拼音两个重要特征.和只关注语义特征的预训练模型相比,ChineseBert提升了一些中文下游任务的性能,但还没有工作利用ChineseBert进行CSC任务.本文首次将ChineseBert预训练模型应用到CSC任务,在不添加任何额外网络的情况下,仅利用ChineseBert在CSC数据上进行微调.在三个人工标注的数据集SIGHAH2013,SIGHAH2014,SIGHAH2015上进行实验,获得了非常好的结果.
随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务.
最近,一些研究开始关注由错误字符引起的噪声信息问题.Guo et al[24]提出一个全局注意力解码器(Global Attention Decoder,GAD)来缓解噪声信息的影响.Wang et al[14]提出动态连接网络(Dynamic Connected Networks,DCN)来学习两个相邻汉字之间的依赖关系,一定程度上避免了模型因噪声影响输出不连贯的语句.Wang and Shang[25]通过对候选句子重新进行评估,找到与原始错误字符相比在字符概率和相似度方面最好的句子来避免噪声的影响.这些方法虽然在一定程度上提高了模型的性能,但本质上都是对模型校正之后结果的重新筛选和排序,噪声信息仍被输入了模型,干扰了模型的预测.与这些方法不同,本文提出的SepSpell方法通过mask字符将屏蔽噪声之后的语句输入模型,从源头解决了噪声干扰问题.
2 基于ChineseBert的CSC方法
2.1 ChineseBert简介
预训练模型最初是为英语设计的,所以在当前的大规模中文预训练模型中缺少两个特定于中文的重要特征:字形信息和拼音信息.中文是象形文字,字形和字音特征包含重要信息,对语言理解十分重要.在此背景下,Sun et al[13]提出全新的中文预训练模型Chinese⁃Bert,如图2所示,根据中文特点,对每个汉字,首先将其语义特征、字形特征和字音特征串联起来,然后通过一个全连接层映射到同一维度,形成融合特征,最后将融合特征向量与位置编码向量一起作为Bert模型的输入,同时使用全词掩蔽[8]和字符掩蔽进行预训练.和通用的中文预训练模型相比,ChineseBert在广泛的中文NLP (Natural Language Processing)任务上实现了最佳性能,也验证了获取的字形字音特征的有效性.
遵循先前的工作[2,10],使用SIGHAN官方训练数据和Wang et al[21]生成的伪数据作为训练集,并使用SIGHAN2013,SIGHAN 2014,SIGHAN2015为测试集.训练集和测试集的统计结果如表1所示.由于原始数据是繁体中文,使用OpenCC (https:∥github.com/BYVoid/OpenCC)将其转化为简体中文,再利用Xu et al[11]的方法,对转化过程中的错误进行处理(如著→着,妳→你).由于SIGHAN2013测试集中人为标注语料的质量较差,相当多的助词“的”“地”“得”的混合用法没有标注[10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”.
为了探究模型的推理效率,按照Hong et al [2]的设定,根据每句话的绝对时间消耗来衡量模型的推理速度.为了减少硬件造成的速度差异,在i5⁃6300 CPU上比较FASpell,Roberta,ChineseBert,SepSepll四个模型的推理速度,实验结果如表7所示.由表可见,因为不需要进行任何后处理操作,ChineseBert和Roberta的速度最快,而SepSpell需要经过两遍的网络探测和校正,和Roberta和ChinseeBert相比耗时翻倍,但由于采用了非自回归的解码方式,加上模型性能的提升,增加的时间损耗还是值得的.另外,和FASpell相比,两者虽然耗时相差不大,但SepSpell仍然具有优势,因为SepSpell可以直接输出对文本的预测结果,不需要对模型的预测重新进行筛选和排序.
Chinese word spelling correction based on n⁃gram ranked inverted index list
∥. Nagoya,Japan:Asian Federation of Natural Language Processing,2013:43-48.
YuJ J, LiZ H.
Chinese spelling error detection and correction based on language model,pronunciation,and shape
∥Proceedings of The 3rd CIPS⁃SIGHAN Joint Conference on Chinese Language Processing. Wuhan,China:Association for Computational Linguistics,2014:220-223.
Bert:Pre⁃training of deep bidirectional transformers for language understanding
∥Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1 (Long and Short Papers). Minneapolis,MI,USA:Association for Computational Linguistics,2019:4171-4186.
PHMOSpell:Phonological and morphological knowledge guided Chinese spelling check
∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Bangkok, Thailand:Association for Computational Linguistics,2021:5958-5967.
ChineseBERT:Chinese pretraining enhanced by glyph and pinyin information
∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Bangkok, Thailand:Association for Computational Linguistics,2021:2065-2075.
Overview of SIGHAN 2014 bake⁃off for Chinese spelling check
∥Proceedings of the 3rd CIPS⁃SIGHAN Joint Conference on Chinese Language Processing. Wuhan,China:Association for Computational Linguistics,2014:126-132.
TsengY H, LeeL H, ChangL P,et al.
Introduction to SIGHAN 2015 bake⁃off for Chinese spelling check
∥. Beijing,China:Association for Computational Linguistics,2015:32-37.
A hybrid approach to automatic corpus generation for Chinese spelling check
∥Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Brussels,Belgium:Association for Computational Linguistics,2018:2517-2527.
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
... 遵循先前的工作[2,10],使用SIGHAN官方训练数据和Wang et al[21]生成的伪数据作为训练集,并使用SIGHAN2013,SIGHAN 2014,SIGHAN2015为测试集.训练集和测试集的统计结果如表1所示.由于原始数据是繁体中文,使用OpenCC (https:∥github.com/BYVoid/OpenCC)将其转化为简体中文,再利用Xu et al[11]的方法,对转化过程中的错误进行处理(如著→着,妳→你).由于SIGHAN2013测试集中人为标注语料的质量较差,相当多的助词“的”“地”“得”的混合用法没有标注[10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”. ...
... 为了探究模型的推理效率,按照Hong et al [2]的设定,根据每句话的绝对时间消耗来衡量模型的推理速度.为了减少硬件造成的速度差异,在i5⁃6300 CPU上比较FASpell,Roberta,ChineseBert,SepSepll四个模型的推理速度,实验结果如表7所示.由表可见,因为不需要进行任何后处理操作,ChineseBert和Roberta的速度最快,而SepSpell需要经过两遍的网络探测和校正,和Roberta和ChinseeBert相比耗时翻倍,但由于采用了非自回归的解码方式,加上模型性能的提升,增加的时间损耗还是值得的.另外,和FASpell相比,两者虽然耗时相差不大,但SepSpell仍然具有优势,因为SepSpell可以直接输出对文本的预测结果,不需要对模型的预测重新进行筛选和排序. ...
Automated essay scoring for nonnative English speakers
Bert:Pre?training of deep bidirectional transformers for language understanding
2
2019
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
Pre?training with whole word masking for Chinese BERT
5
2021
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
... 预训练模型最初是为英语设计的,所以在当前的大规模中文预训练模型中缺少两个特定于中文的重要特征:字形信息和拼音信息.中文是象形文字,字形和字音特征包含重要信息,对语言理解十分重要.在此背景下,Sun et al[13]提出全新的中文预训练模型Chinese⁃Bert,如图2所示,根据中文特点,对每个汉字,首先将其语义特征、字形特征和字音特征串联起来,然后通过一个全连接层映射到同一维度,形成融合特征,最后将融合特征向量与位置编码向量一起作为Bert模型的输入,同时使用全词掩蔽[8]和字符掩蔽进行预训练.和通用的中文预训练模型相比,ChineseBert在广泛的中文NLP (Natural Language Processing)任务上实现了最佳性能,也验证了获取的字形字音特征的有效性. ...
... Roberta[8]:直接使用CSC训练数据微调Roberta⁃base得到. ...
Visually and phonologically similar characters in incorrect Chinese words:Analyses,identification,and applications
1
2011
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
SpellGCN:Incorporating phonological and visual similarities into language models for Chinese spelling check
7
2020
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
... 遵循先前的工作[2,10],使用SIGHAN官方训练数据和Wang et al[21]生成的伪数据作为训练集,并使用SIGHAN2013,SIGHAN 2014,SIGHAN2015为测试集.训练集和测试集的统计结果如表1所示.由于原始数据是繁体中文,使用OpenCC (https:∥github.com/BYVoid/OpenCC)将其转化为简体中文,再利用Xu et al[11]的方法,对转化过程中的错误进行处理(如著→着,妳→你).由于SIGHAN2013测试集中人为标注语料的质量较差,相当多的助词“的”“地”“得”的混合用法没有标注[10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”. ...
... [10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”. ...
Read,listen,and see:Leveraging multimodal information helps Chinese spell checking
4
2021
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 遵循先前的工作[2,10],使用SIGHAN官方训练数据和Wang et al[21]生成的伪数据作为训练集,并使用SIGHAN2013,SIGHAN 2014,SIGHAN2015为测试集.训练集和测试集的统计结果如表1所示.由于原始数据是繁体中文,使用OpenCC (https:∥github.com/BYVoid/OpenCC)将其转化为简体中文,再利用Xu et al[11]的方法,对转化过程中的错误进行处理(如著→着,妳→你).由于SIGHAN2013测试集中人为标注语料的质量较差,相当多的助词“的”“地”“得”的混合用法没有标注[10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”. ...
PHMOSpell:Phonological and morphological knowledge guided Chinese spelling check
3
2021
... 最近,随着大型预训练语言模型的成功(如Bert[7],Roberta[8]),基于预训练语言模型的CSC方法也被提出.Hong et al[2]提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liu et al[9]指出,大约83%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al[10]提出SpellGCN模型,利用Bert初始化每个字符的节点特征,再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系.Xu et al[11]提出REALISE模型,通过额外的GRU (Gated Recurrent Unit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al[12]提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等.但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融入拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不同带来的特征信息不对等问题. ...
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
ChineseBERT:Chinese pretraining enhanced by glyph and pinyin information
2
... 近期,Sun et al[13]提出ChineseBert预训练模型,联合了中文的字形和拼音两个重要特征.和只关注语义特征的预训练模型相比,ChineseBert提升了一些中文下游任务的性能,但还没有工作利用ChineseBert进行CSC任务.本文首次将ChineseBert预训练模型应用到CSC任务,在不添加任何额外网络的情况下,仅利用ChineseBert在CSC数据上进行微调.在三个人工标注的数据集SIGHAH2013,SIGHAH2014,SIGHAH2015上进行实验,获得了非常好的结果. ...
... 预训练模型最初是为英语设计的,所以在当前的大规模中文预训练模型中缺少两个特定于中文的重要特征:字形信息和拼音信息.中文是象形文字,字形和字音特征包含重要信息,对语言理解十分重要.在此背景下,Sun et al[13]提出全新的中文预训练模型Chinese⁃Bert,如图2所示,根据中文特点,对每个汉字,首先将其语义特征、字形特征和字音特征串联起来,然后通过一个全连接层映射到同一维度,形成融合特征,最后将融合特征向量与位置编码向量一起作为Bert模型的输入,同时使用全词掩蔽[8]和字符掩蔽进行预训练.和通用的中文预训练模型相比,ChineseBert在广泛的中文NLP (Natural Language Processing)任务上实现了最佳性能,也验证了获取的字形字音特征的有效性. ...
Dynamic connected networks for Chinese spelling check
... 最近,一些研究开始关注由错误字符引起的噪声信息问题.Guo et al[24]提出一个全局注意力解码器(Global Attention Decoder,GAD)来缓解噪声信息的影响.Wang et al[14]提出动态连接网络(Dynamic Connected Networks,DCN)来学习两个相邻汉字之间的依赖关系,一定程度上避免了模型因噪声影响输出不连贯的语句.Wang and Shang[25]通过对候选句子重新进行评估,找到与原始错误字符相比在字符概率和相似度方面最好的句子来避免噪声的影响.这些方法虽然在一定程度上提高了模型的性能,但本质上都是对模型校正之后结果的重新筛选和排序,噪声信息仍被输入了模型,干扰了模型的预测.与这些方法不同,本文提出的SepSpell方法通过mask字符将屏蔽噪声之后的语句输入模型,从源头解决了噪声干扰问题. ...
... 遵循先前的工作[2,10],使用SIGHAN官方训练数据和Wang et al[21]生成的伪数据作为训练集,并使用SIGHAN2013,SIGHAN 2014,SIGHAN2015为测试集.训练集和测试集的统计结果如表1所示.由于原始数据是繁体中文,使用OpenCC (https:∥github.com/BYVoid/OpenCC)将其转化为简体中文,再利用Xu et al[11]的方法,对转化过程中的错误进行处理(如著→着,妳→你).由于SIGHAN2013测试集中人为标注语料的质量较差,相当多的助词“的”“地”“得”的混合用法没有标注[10],导致性能良好的模型在该数据集上的分数不佳.为了缓解这个问题,本文也采用Xu et al[11]的后处理方法,从模型输出中删除所有检测和更正的“的”“地”“得”. ...
Confusionset?guided pointer networks for Chinese spelling check
... 随着大型预训练语言模型的巨大成功[7-8],许多基于Bert的CSC模型被提出,也取得了很大进展.Hong et al[2]提出的FASpell中,语言模型被用作候选词生成器,并采用置信度⁃相似度曲线来选择最佳候选词.Soft⁃Masked⁃Bert[23]由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征.为此,很多工作都设计了独特的网络将字形字音特征融入预训练模型[10-12],然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型ChineseBert来解决CSC任务. ...
Global attention decoder for Chinese spelling error correction
1
2021
... 最近,一些研究开始关注由错误字符引起的噪声信息问题.Guo et al[24]提出一个全局注意力解码器(Global Attention Decoder,GAD)来缓解噪声信息的影响.Wang et al[14]提出动态连接网络(Dynamic Connected Networks,DCN)来学习两个相邻汉字之间的依赖关系,一定程度上避免了模型因噪声影响输出不连贯的语句.Wang and Shang[25]通过对候选句子重新进行评估,找到与原始错误字符相比在字符概率和相似度方面最好的句子来避免噪声的影响.这些方法虽然在一定程度上提高了模型的性能,但本质上都是对模型校正之后结果的重新筛选和排序,噪声信息仍被输入了模型,干扰了模型的预测.与这些方法不同,本文提出的SepSpell方法通过mask字符将屏蔽噪声之后的语句输入模型,从源头解决了噪声干扰问题. ...
Improve Chinese spelling check by reevaluation
1
2022
... 最近,一些研究开始关注由错误字符引起的噪声信息问题.Guo et al[24]提出一个全局注意力解码器(Global Attention Decoder,GAD)来缓解噪声信息的影响.Wang et al[14]提出动态连接网络(Dynamic Connected Networks,DCN)来学习两个相邻汉字之间的依赖关系,一定程度上避免了模型因噪声影响输出不连贯的语句.Wang and Shang[25]通过对候选句子重新进行评估,找到与原始错误字符相比在字符概率和相似度方面最好的句子来避免噪声的影响.这些方法虽然在一定程度上提高了模型的性能,但本质上都是对模型校正之后结果的重新筛选和排序,噪声信息仍被输入了模型,干扰了模型的预测.与这些方法不同,本文提出的SepSpell方法通过mask字符将屏蔽噪声之后的语句输入模型,从源头解决了噪声干扰问题. ...