南京大学学报(自然科学), 2024, 60(3): 502-510 doi: 10.13232/j.cnki.jnju.2024.03.013

基于BiLSTM和CNN的序贯三支情感分类模型研究

赵梦宇1, 孙京博1, 魏遵天1, 辛现伟2, 宋继华,1

1.北京师范大学人工智能学院,北京,100875

2.河南师范大学计算机与信息工程学院,新乡,453007

Research on sequential three⁃way sentiment classification model based on BiLSTM and CNN

Zhao Mengyu1, Sun Jingbo1, Wei Zuntian1, Xin Xianwei2, Song Jihua,1

1.School of Artificial Intelligence,Beijing Normal University,Beijing,100875,China

2.College of Computer and Information Engineering,Henan Normal University,Xinxiang,453007,China

通讯作者: E⁃mail:songjh@bnu.edu.cn

收稿日期: 2023-08-10  

基金资助: 河南省高等学校重点科研项目.  24A520019
2023年国际中文教育研究课题.  23YH26C
教育部人文社会科学重点研究基地重大项目.  22JJD740017
河南省科技攻关项目.  232102210077

Received: 2023-08-10  

摘要

文本情感分析作为自然语言处理领域中的一个重要分支,在现实生活中具有重要的应用价值.传统深度学习模型在情感分析中主要根据概率值大小进行硬分类,忽略了极性不明显数据的影响,导致阈值边缘对象的分类准确率欠佳.为了解决这一问题,基于CNN (Convolutional Neural Networks)和BiLSTM (Bi⁃directional Long Short⁃Term Memory)模型,并引入序贯三支决策(Sequential Three⁃way Decisions,S3WD)的思想,提出了基于BiLSTM和CNN的序贯三支情感分类模型(BiLCNN⁃S3WD),该模型能更好地从多个粒度对极性不明显数据进行处理.通过在online_shopping_10_cat和微博数据集上进行多组实验与对比分析,验证了所提模型的有效性.实验结果表明,与七个基线模型相比,BiLCNN⁃S3WD在三个数据集上的每个评价标准都取得了更佳的效果.

关键词: 序贯三支决策 ; 情感分类 ; CNN ; BiLSTM ; 多粒度

Abstract

Text sentiment analysis is an important branch of natural language processing with significant application value. Traditional deep learning models in sentiment analysis mainly perform hard classification based on the size of probability values,neglecting the impact of the data with inconspicuous polarity and resulting in poor accuracy of the classification for threshold edge objects. Based on CNN (Convolutional Neural Networks) and BiLSTM (Bi⁃directional Long Short⁃Term Memory),we propose the BiLCNN⁃S3WD based on BiLSTM and CNN,by introducing the idea of S3WD (Sequential Three⁃way Decisions),which better processes the data with inconspicuous polarity from multiple granularities. The model's effectiveness is verified through multiple sets of experiments and comparative analyses on the online_shopping_10_cat and Weibo datasets. According to the experimental results,BiLCNN⁃S3WD achieves better results in each evaluation criterion on the three datasets compared with the seven baseline models.

Keywords: sequential three⁃way decisions ; sentiment classification ; CNN ; BiLSTM ; multi⁃granularity

PDF (790KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵梦宇, 孙京博, 魏遵天, 辛现伟, 宋继华. 基于BiLSTM和CNN的序贯三支情感分类模型研究. 南京大学学报(自然科学)[J], 2024, 60(3): 502-510 doi:10.13232/j.cnki.jnju.2024.03.013

Zhao Mengyu, Sun Jingbo, Wei Zuntian, Xin Xianwei, Song Jihua. Research on sequential three⁃way sentiment classification model based on BiLSTM and CNN. Journal of nanjing University[J], 2024, 60(3): 502-510 doi:10.13232/j.cnki.jnju.2024.03.013

科技的不断进步使各行各业的生产、生活与网络紧密相连,人们通过多种终端设备进行网络购物、在线医疗咨询、订购外卖等,随之产生了海量的文本信息,从这些文本中更好地挖掘有价值的信息逐渐成为学者们关注的重点1.情感分类是自然语言处理领域的一个重要研究方向,主要通过深度学习、机器学习等方法快速从海量文本信息中挖掘有用的情感信息,目前已经在舆情分析2、电子商务3、数字心理健康4和推荐系统5等领域得到广泛应用.

文本情感分类的主流方法有基于情感词典、经典的机器学习以及深度学习的方法.基于情感词典的文本情感分类方法主要通过构建情感词典的方式判断文本的情感极性,但情感词典具有一定的时效性,对于不同的领域需要构建多个情感词典,会耗费大量的人力和物力.基于机器学习的文本情感分类方法相比于基于情感词典的方法有一定程度的改进,克服了过度依赖情感词典的局限性,但仍需要对一系列的文本特征进行手工标记,不仅需要大量的人力资源,而且存在一定的主观因素6.此外,随着深度学习相关研究的快速发展,很大程度解决了上述以情感字典和机器学习为代表的经典文本分析技术中存在的问题,取得了显著效果.目前主流的神经网络,例如RNN (Recurrent Neural Network),CNN (Convolutional Neural Networks),Transformer,BERT (Bidirectional Encoder Representations from Transformers)等,已经在很多情感分类任务中取得相对较好的效果.

值得注意的是,深度学习方法首先将待分类的文本输入神经网络以获取其可能分到类别的概率,然后根据概率值直接对其进行硬分类.由此,当面对极性不显著的边界数据时,神经网络的方法容易导致情感误分类.在情感二分类任务中,利用神经网络进行训练并根据其计算的概率值进行二值分类时,只能对中值附近的数据进行硬划分7,如大于0.5为正向情感,小于等于0.5为负向情感.但概率在0.5附近的样本属于模糊样本,需进一步甄别,否则易导致数据所属类型的划分偏离甚至错误.由此,本文在深度学习训练过程中引入序贯三支决策的思想来解决上述问题.

三支决策通过“三分而治的思想”进行逐步求解,在“非黑即白”二支决策的基础上增加了延迟决策选项,将由原来的接受或拒绝两种决策选项变成接受、拒绝或延迟决策三种决策选项,这一过程更符合人类的思维认知与决策过程8.为了高效处理复杂场景下的不确定性问题,Yao9基于粒计算的思想提出了序贯三支决策模型.类似地,粒计算是一种面向复杂问题求解的有效工具10,通过运用不同的粒化准则可以从多个视角、多层次刻画复杂问题11,能够通过构建多粒度空间对论域对象进行由粗到细的渐进式决策12,已广泛应用于人工智能的多个领域.最初的序贯三支决策模型主要应用在信息表或者决策表中,利用属性约简的方法构建多层粒度特征表示,并将信息表中的属性视为特征.由于序贯三支决策的特殊结构和多阶段决策过程,非常适合挖掘海量数据的有效信息,因此序贯三支决策在情感分类领域的应用受到越来越多的学者的关注13-15.

围绕传统的文本情感分类模型对极性不明显数据的分类性能提升问题展开研究,本文主要的贡献和创新如下.

(1)提出一种新的情感分类模型BiLCNN⁃S3WD,通过在深度学习的训练过程中融入序贯三支决策,提升模型捕捉文本情感信息的能力,从而提高分类性能.

(2)利用序贯三支决策从不同粒度对极性不明显数据下的文本情感信息进行挖掘,多维度地处理边界对象,提高模型的泛化能力.

(3)在online_shopping_10_cat和微博数据集上进行多组实验与对比分析,结果表明本文所提模型与传统方法相比,具有更高的分类精度.

1 相关工作

三支决策的理论起源于1992年Yao and Wong16首次将贝叶斯决策理论融入粗糙集理论中,提出决策粗糙集模型.2009年Yao17在决策粗糙集的理论基础上正式提出三支决策理论,其通过阈值α,β进行接受、拒绝和延迟三种决策,将目标样本划分为三个互不相交的区域,正域、负域和边界域.三支决策的这种方式在二元分类任务中得到了很好的解释,接受决策表示接受第一类,拒绝决策表示拒绝第一类而接受第二类,延迟决策则表示不接受第一类和第二类.因此,这也使三支决策十分适合二分类的情感分类任务.通过获得更多的信息,可以对边界域中的样本进行进一步的处理,得到更好的分类结果.例如,周哲和商琳18提出一种融合三支决策思想的特征提取方法,以提高文本情感分类的准确率.随着三支决策和深度学习的发展,学者们开始尝试将二者进行融合以解决情感分类问题.Ma et al7利用RNN训练,并通过三支决策分类调整边界域中样本的概率,使边界域中样本极性更大,获得了更好的情感分类结果.Zhang et al19将传统的基于特征的方法和CNN相融合,通过构造置信分割器,将CNN分类质量差的样本重新使用具有朴素贝叶斯特征的支持向量机进行情感二分类.

为了实现动态多步决策,Yao9在2013年正式提出序贯三支决策理论,即在每一个粒层下都将论域划分为正域、负域和边界域三个部分,且将上一层的边界域视为下一粒层的论域.随着粒层的增加,获取的信息逐步增多,边界域将逐渐变小,如果在最细粒层,边界域依旧不为空,则对边界域做二支决策.近年来,序贯三支决策在情感分类领域的应用逐渐增多,并取得了不错的效果.张刚强等20利用N⁃gram语言模型构成一种多粒度情感结构,提出一种基于序贯三支决策的多粒度情感信息表示方法.范琴等21基于序贯三支决策在提高分类质量的同时,降低了情感分类整体的决策代价.杨新等22构造了具有时空特性的序贯多层粒结构,在维持分类质量的前提下,大幅减少了情感分类代价.王琴和刘盾23基于序贯三支决策思想和集成学习的优势,构建了结合集成学习的多粒度序贯三支决策模型.Chen et al24提出一种分类特征表示三支决策模型,得到用于情感分类的正负域的特征表示.

2 预备知识

定义1 序贯三支决策925S=U,CD,V,f表示一个决策信息系统,其中,U为非空有限集合;C为非空的条件属性集合,D是决策属性集,CD=,C1C2C3

Cn=CC=n为属性集序列;V是属性值集合;fU×CV表示一个信息函数,在函数f下,论域U被划分为互不相交的三个区域.GS=GS1,GS2,,GSn,1in,表示多层次的粒度结构,对于基于等价关系U/Ci的第i个粒度层GSi=Ui,CiDi,Vi,fi,i=1,2,3,,n,其决策阈值αi,βi且满足0<βi<αi<1,则在第i个粒度层中正域POS、负域NEG以及边界域BND的划分如下所示:

POSαi,βiXi=xUiPrXixciαiBNDαi,βiXi=xUiβi<PrXixci<αiNEGαi,βiXi=xUiPrXixciβi

其中,Ui表示第i层论域,Xi表示第i个粒层的目标概念,PrXixci表示在粒层i上,对象x关于目标概念Xi的隶属度函数,计算如下:

PrXixci=Xixcixci

定义2 Word2vec词向量模型26 Word2vec是谷歌提出的用于词向量计算的算法模型,通过CBOW(Continuous Bag⁃of⁃Words Model)和Skip⁃gram(Continuous Skip⁃Gram Model)两种方式对词向量进行计算.其中,CBOW通过上下文预测当前词,Skip⁃gram通过当前词预测上下文信息,利用负采样技术对词向量库进行训练.

定义3 BiLSTM网络27 BiLSTM网络由LSTM发展而来,由前向LSTM和后向LSTM两部分组成,又称双向长短时记忆网络.LSTM具有捕捉样本中长距离信息以及通过“门控单元”控制信息避免梯度爆炸的能力,其计算过程如下:

ft=σWfht-1,xt+bf
it=σWiht-1,xt+bi
C˜t=tanhWcht-1,xt+bc
Ct=ft*Ct-1+it*C˜t
ot=σWoht-1,xt+bo
ht=ot*tanhCt

其中,xt表示t时刻的输入;ht-1表示t-1时刻隐藏层的值;ft,it,ot,C˜t,Ct,ht分别表示t时刻遗忘门、输入门、输出门、临时细胞、细胞、隐藏层的值;WfWiWcWobfbibcbo分别表示对应门和细胞的权重系数以及偏置向量.

定义4 CNN网络28 典型的CNN网络由卷积层、池化层和全连接层组成.其中卷积层主要负责提取输入中的局部特征;池化层用来减少网络参数,降低数据维度,减少冗余信息,防止过拟合;全连接层对经过卷积层和池化层的数据进行处理,得到最终结果.

3 基于BiLCNN⁃S3WD的文本情感分类

本文提出一个基于BiLSTM、CNN和序贯三支决策的BiLCNN⁃S3WD模型进行情感分类,如图1所示.二分类情感分析任务中,情感包含积极和消极两种,通过三支决策将二分类情感分为三个部分,其对应关系设为:积极情感分到POS,消极情感分到NEG,情感分类概率值在阈值α,β之间被认为是类别不确定对象,将其划分到BND,然后逐步迭代,通过不同粒度层获取更多信息进行情感类别决策.本文提出的BiLCNN⁃S3WD模型通过BiLSTM获取上下文信息、利用CNN提取不同区域的局部特征,同时使用序贯三支决策逐步获取信息优化情感分类决策过程.下面对BiLCNN⁃S3WD模型进行详细介绍.

图1

图1   BiLCNN⁃S3WD架构图

Fig.1   BiLCNN⁃S3WD architecture diagram


3.1 模型结构设计

3.1.1 输入层

对于n个待分类样本,经过预处理得到S=s1,s2,,snsi表示一个待分类样本),输入模型嵌入层,得到词向量矩阵X=x1,x2,,xn,XRn×l×d1.l表示样本的最大长度,其中样本si映射的词向量矩阵xi=xi1,xi2,,xij,,xilxiRl×d1xij表示样本si的第jd1维的词向量表示.

3.1.2 BiLSTM网络层

本模型通过BiLSTM网络将输入的信息X以正向和反向两种顺序序列化输入,隐藏层维度为d2.在LSTM网络中,t-1时刻的输出ht-1作为t时刻的输入,对于一个嵌入向量xi,计算过程如下:

hti=LSTMxi,ht-1i

将最后一层正向反向的隐藏向量hnihni进行拼接得到hoiR1×d3d3=2×d2).HoRn×1×d3作为该层最后的输出,使模型更好地远距离获取上下文的序列信息.

3.1.3 序贯CNN网络层

序贯CNN网络将序贯三支决策的思想融入CNN的学习过程,结合CNN获取局部特征的特点和序贯三支决策延迟决策的优势,提取不同粒度的特征,增强模型的表达能力.本模型的序贯CNN网络层分四部分,每一部分都由卷积层、最大池化层、线性层及决策层组成.CNN卷积核的大小代表提取特征的粒度,通过设置CNN卷积核的大小对BiLSTM得到的隐藏层向量Ho进行一维卷积,以提取不同粒度下的局部信息,其中CNN核设为k2,3,4,5.初始将所有样本放入BND并将POSNEG设为空,每一部分都针对BND中的样本进行训练,卷积核为k的CNN网络训练过程如下:

Cok=Conv1dHk,k
Mok=MaxPool1dCok,k
fck=LinearMok,1
Pk=Sigmoidfck

其中,

CokRnk×1×d4d4=d3-k-1
MokRnk×1×d5d5=d4/k
fckRnk×1,PkRnk×1

nk表示当前BND中的样本数.根据得到的概率值pipiPk和阈值α,β判断当前样本si是否加入POSBND.对于仍在BND中的样本,将其对应的hk输入k+1部分继续计算,直到k=5BND为空.

3.2 BiLCNN⁃S3WD模型描述与算法

与传统方法132429-30不同,本文模型通过动态逐步变化的过程对边界域对象进行针对性训练,使深度学习和序贯三支决策完美融合成一个整体,极大地减少了训练量.模型通过Adam优化算法31进行神经网络参数的优化更新,训练采用的损失函数是二分类交叉熵BCELoss,表示如下:

L=-1Nyilgpi+1-yilg1-pi

其中,N是样本总数,yi是第i个样本的类别,pi是第i个样本的预测概率值.

对于一段待分类文本,经过预处理后通过Word2vec层得到对应的词向量,由BiLSTM网络获取关于句子上下文的信息,输入序贯CNN网络中.首先,将该信息输入卷积核为2的CNN网络进行特征抽取,提取较窄感受野信息,根据Sigmoid函数计算出的概率值pi和给定的阈值α,β比较判断出POSNEGBND;然后,将BND中所对应的BiLSTM向量输入卷积核为3的CNN网络并重复上述操作,逐渐提升感受野以获取更多信息,进行更加充分的推理,直到边界域为空或到达最后一个粒度层,并在最后的粒层做二支决策,最终得到分类结果.具体算法如下.

算法1 基于BiLSTM和CNN的序贯三支情感分类模型

输入:嵌入词向量X,阈值α,β

输出:情感分类结果Y

1.HoBiLSTMX ∥通过BiLSTM进行编码以获取文本的高级表示

2.for each k2,3,4,5 do convsConv(k) end for ∥初始化卷积模块

3.BNDHo ∥将所有样本置于边界域

4.POSΦ,NEGΦ,BND'Φ ∥初始化

5.for each convconvs do ∥遍历不同kernel size卷积模块

6.  if BND is empty then break

7.  else if not last_conv then

8.    for each hiBND do ∥遍历样本

9.      piconvhi∥使用卷积模块编码提取局部特征并预测分类概率pi

10.      if pi>α then POSxi ∥样本归为正域

11.      else if pi<β then NEGxi ∥样本归为负域

12.      else BND'hi ∥样本归为边界域

13.      end if

14.    end for

15.  else ∥执行到最后一个粒度层,直接进行硬分类

16.    for each hiBND then

17.      piconv(hi)

18.      if p>0.5 then POSxi

19.      else NEGxi

20.      end if

21.    end for

22.  end if

23.  BNDBND'

24.end for

25.POS_numaccuratePOS ∥统计POS域中正确样本数

26.NEG_numaccurateNEG ∥统计NEG域中正确样本数

27.accuracyPOS_num+NEG_num/num_all_sample

28.return accuracy

4 实验结果

4.1 数据集描述

为了验证本文模型的性能,挑选中文微博情感分类语料库(https:∥github.com/dengxiuqi/weibo2018),online_shopping_10_ cat(https:∥www.datafountain.cn/datasets/56)数据集中的酒店类和计算机类,共三个实验数据集用于评测.每个数据集由若干条用户评论组成,每个用户评论至少包含一个句子,每个句子对应一种用户情感,即积极情感(1)或消极情感(0).

实验数据的具体统计如表1所示.对数据集进行预处理,首先进行去重操作,删除长度小于4的样本,将繁体字转为简体字,使用jieba库进行分词,删除无意义的符号和词汇.为了得到对下游任务更具有针对性的词向量,基于每个训练集各训练了一套相应的Word2vec词向量,设定词向量的维度为64,词频最小为1,迭代1000次.

表1   实验数据集

Table 1  Experimental datasets

数据集数量训练集测试集(标签)
Hotel (online_shopping_10_cat)99983999(0),3999(1)1000(0),1000(1)
Computer (online_shopping_10_cat)39911699(0),1792(1)297(0),203(1)
中文微博情感105003586(0),5414(1)1073(0),427(1)

新窗口打开| 下载CSV


4.2 基线模型

为了更好地评估本文提出的模型性能,将其与以下七个基线模型进行比较,所有的基线模型都使用相同的Word2vec词向量.

(1)BiLSTM网络.

(2)BiLSTM网络训练得到的最后一层隐藏向量分别输入卷积核为2~5的CNN网络,得到四个不同的基线模型.

(3)DLSTWSC:通过训练保存四个模型作为四个不同粒层后选择SVM作为分类器.

(4)CFRT:一个根据互信息提取特征并进行三支决策分类方法.

4.3 结果分析

通过中文文本情感分类这一NLP领域的热点问题探究序贯三支决策在深度学习中的作用,在深度学习中融合序贯三支决策的分步动态决策的思想,提高分类正确率.为了衡量模型的性能,采用情感分类领域最常用的评价标准,分别是分类准确率、召回率和F1.所有实验结果均对应模型10轮结果的平均值,如表2~4所示,表中黑体字表示结果最优.由表可知,本文提出的BiLCNN⁃S3WD模型与其他七个基线模型相比,在三个数据集上每个评价标准都取得了更佳的效果,证明了模型的有效性.

表2   三个数据集在不同模型下分类准确率对比

Table 2  Classification accuracy of three datasets with different models

模型HotelComputer中文微博情感
BiLCNN⁃S3WD0.9152±0.00220.9236±0.00500.8193±0.0049
BiLSTM0.9123±0.00370.9082±0.00840.7977±0.0154
BiLSTM+CNN (kernel_size=2)0.9120±0.00270.9194±0.00200.7583±0.0231
BiLSTM+CNN (kernel_size=3)0.9129±0.00180.9200±0.00460.7999±0.0132
BiLSTM+CNN (kernel_size=4)0.9139±0.00290.9206±0.00470.7939±0.0190
BiLSTM+CNN (kernel_size=5)0.9130±0.00200.9192±0.00620.8095±0.0116
DLSTWSC0.9106±0.00150.9230±0.00000.7855±0.0164
CFRT0.8270±0.00230.8698±0.00180.8190±0.0012

新窗口打开| 下载CSV


表3   三个数据集在不同模型下分类召回率对比

Table 3  Cassification recall of three datasets with different models

模型HotelComputer中文微博情感
BiLCNN⁃S3WD0.9165±0.00230.9280±0.01370.8190±0.0059
BiLSTM0.9114±0.00370.9085±0.01010.7959±0.0102
BiLSTM+CNN (kernel_size=2)0.9130±0.00330.9194±0.00150.7591±0.0226
BiLSTM+CNN (kernel_size=3)0.9125±0.00340.9216±0.00550.7997±0.0134
BiLSTM+CNN (kernel_size=4)0.9145±0.00270.9209±0.00400.7946±0.0175
BiLSTM+CNN (kernel_size=5)0.9140±0.00300.9194±0.00730.8085±0.0118
DLSTWSC0.9110±0.00200.9259±0.00000.7806±0.0250
CFRT0.7377±0.00390.7581±0.00460.6564±0.0021

新窗口打开| 下载CSV


表4   三个数据集在不同模型下分类F1对比

Table 4  Classification F1 scores of three datasets with different models

模型HotelComputer中文微博情感
BiLCNN⁃S3WD0.9145±0.00470.9234±0.00510.8213±0.0044
BiLSTM0.9127±0.00450.9102±0.00850.8034±0.0100
BiLSTM+CNN(kernel_size=2)0.9120±0.00330.9188±0.00300.7687±0.0208
BiLSTM+CNN(kernel_size=3)0.9110±0.00200.9206±0.00540.8057±0.0118
BiLSTM+CNN(kernel_size=4)0.9135±0.00450.9184±0.00930.8010±0.0153
BiLSTM+CNN(kernel_size=5)0.9125±0.00400.9182±0.00570.8153±0.0105
DLSTWSC0.9100±0.00000.9278±0.00000.7882±0.0229
CFRT0.8100±0.00280.8254±0.00290.6737±0.0020

新窗口打开| 下载CSV


与BiLSTM模型和BiLSTM+CNN kernel_size=i,i=2,3,4,5模型相比,BiLCNN⁃S3WD模型通过对模糊样本从不同的CNN中获取的特征进行多次判断,提高了模型的准确率.本文所提方法与DLSTWSC和CFRT模型的不同之处在于将训练和测试归为一套流程,融合为一个整体,并动态地处理边界域中的数据样本,对于边界域中的模糊数据,每一层都进行有针对性的学习.这种方法不仅避免了训练和测试过程的割裂,而且提高了模型在不同数据集上的迁移能力以及准确率.此外,三支决策在训练的过程中并没有参与反向传播,梯度迭代的过程,得益于三支决策的提前退出机制,在相同数据批量下能减少模型的计算开销.由于每个数据集特征不同,不同CNN卷积核提取的特征也不同,其性能会发生轻微的变化.根据序贯三支决策的思想,本文模型充分利用每个卷积核提取的不同特征,得到了更好的结果.此外,由于阈值的选取与损失函数有关,而损失函数并非本研究的关注,故本文将阈值当作一个超参数进行处理,例如Computer和中文微博情感数据集上的阈值分别为(0.85,0.27)和(0.7,0.3)时效果最佳.

4.4 实验分析

4.4.1 多粒度结果分析

通过三个案例对BiLCNN⁃S3WD模型不同粒度层分析,阐述所提模型的有效性、可行性和可靠性.从Hotel测试集中选出三条数据,如表5所示.当阈值为(0.7,0.3)时,BiLCNN⁃S3WD模型预测概率的结果如表6所示.可以看出,同一个句子在不同粒度下的概率值具有一定差异,这是因为CNN使用了不同的卷积核来提取不同的局部特征,获取不同的粒度信息.本模型利用多层不同核大小的卷积层逐层提取特征,在决策过程中逐步将边界域中的样本分类正确.例如,对于极性较大的样本数据如S1和S2,分别在第一粒层和第二粒层被分出;对于极性不明显的边界数据,则继续在下一粒度层计算,直到极性值足够大或者最后一个粒层.

表5   多粒度结果分析例句

Table 5  Examples of multi⁃granularity results analysis

序号句子标签
S1不错,下次还考虑入住.交通也方便,在餐厅吃得也不错.1
S2酒店早餐比较差,样数少,连包子馒头都供应不齐,8点后,很多东西都没,希望能好好改进.0
S3刚刚经历了在丽江丽王酒店的痛苦经历,来到这里我被酒店的服务感动了,这才是真正的酒店,我觉得像回到家里一样.唯一的缺点是租车太贵了.1

新窗口打开| 下载CSV


表6   BiLCNN⁃S3WD不同粒层下的结果

Table 6  Examples of multi⁃granularity results of BiLCNN⁃S3WD

句子P (kernel_size=2)P (kernel_size=3)P (kernel_size=4)P (kernel_size=5)
S10.9951---
S20.35100.2589--
S30.54860.49750.53120.7367

新窗口打开| 下载CSV


4.4.2 阈值分析

分析阈值α,β对BiLCNN⁃S3WD模型性能的影响.为了更好地探究,不再对三个数据集进行随机初始化,使其除阈值以外,不再有任何变量影响模型结果,结果如图2所示.可以看出,αβ的选取对模型最终的性能有较大影响.Hotel和中文微博情感数据集在α较小且β较大时结果较好,Computer数据集在α较大且β较大时结果更好,也验证了对于不同的数据集在数据极性不显著区域分类的随机性.

图2

图2   α, β对模型结果的影响

Fig.2   The influence of α, β on model results


5 结论

本文从情感分类任务着手,提出一个基于BiLSTM和CNN的序贯三支决策BiLCNN⁃S3WD模型,利用序贯三支决策获取不同粒度层信息的能力,尝试动态地解决深度模型在分类边界附近硬分类误差大的问题.实验表明,所提BiLCNN⁃S3WD模型与传统方法相比,在三个数据集上都取得了较好的性能.由于阈值的选取对模型的结果有较大影响,未来工作将尝试融合多种方法进一步研究阈值的最佳选取问题,并探索引入决策代价矩阵以获得更好的性能表现.

参考文献

Pang BLee L.

Opinion mining and sentiment analysis

Foundations and Trends® in Information Retrieval,20082(1-2):1-135.

[本文引用: 1]

Arbane MBenlamri RBrik Yet al.

Social media⁃based COVID⁃19 sentiment classification model using Bi⁃LSTM

Expert Systems with Applications,2023212118710.

[本文引用: 1]

Fiarni CMaharani HPratama R.

Sentiment analysis system for Indonesia online retail shop review using hierarchy Naive Bayes technique

2016 4th International Conference on Information and Communication Technology. Bandung,IndonesiaIEEE20161-6.

[本文引用: 1]

Lekkas DGyorda J APrice G Det al.

Using the COVID⁃19 pandemic to assess the influence of news affect on online mental health⁃related search behavior across the United States:Integrated sentiment analysis and the circumplex model of affect

Journal of Medical Internet Research,202224(1):e32731.

[本文引用: 1]

Karthik R VGanapathy S.

A fuzzy recommendation system for predicting the customers interests using sentiment analysis and ontology in e⁃commerce

Applied Soft Computing,2021108107396.

[本文引用: 1]

王颖洁朱久祺汪祖民.

自然语言处理在文本情感分析领域应用综述

计算机应用,202242(4):1011-1020.

[本文引用: 1]

Wang Y JZhu J QWang Z Met al.

Review of applications of natural language processing in text sentiment analysis

Journal of Computer Applications,202242(4):1011-1020.

[本文引用: 1]

Ma YYu J YJi B Jet al.

Three⁃way decisions based RNN models for sentiment classification

International joint conference on rough sets. Bratislava,SlovakiaSpringer2021247-258.

[本文引用: 2]

刘盾李天瑞杨新.

三支决策——基于粗糙集与粒计算研究视角

智能系统学报,201914(6):1111-1120.

[本文引用: 1]

Liu DLi T RYang Xet al.

Three⁃way decisions:Research perspectives for rough sets and granular computing

CAAI Transactions on Intelligent Systems,201914(6):1111-1120.

[本文引用: 1]

Yao Y Y.

Granular computing and sequential three⁃way decisions

The 8th International Conference on Rough Sets and Knowledge Technology. Halifax,CanadaSpringer201316-27.

[本文引用: 3]

王国胤张清华胡军.

粒计算研究综述

智能系统学报,20072(6):8-26.

[本文引用: 1]

Wang G YZhang Q HHu J.

An overview of granular computing

CAAI Transactions on Intelligent Systems,20072(6):8-26.

[本文引用: 1]

Zhang Q HHuang Z KWang G Y.

A novel sequential three⁃way decision model with autonomous error correction

Knowledge⁃Based Systems,2021212106526.

[本文引用: 1]

苗夺谦胡声丹.

基于粒计算的不确定性分析

西北大学学报(自然科学版),201949(4):487-495.

[本文引用: 1]

Miao D QHu S D.

Uncertainty analysis based on granular computing

Journal of Northwest University (Natural Science Edition),201949(4):487-495.

[本文引用: 1]

Zhang Y BMiao D QWang J Qet al.

A cost⁃sensitive three⁃way combination technique for ensemble learning in sentiment classification

International Journal of Approximate Reasoning,201910585-97.

[本文引用: 2]

Yang XLi Y JLi Q Ket al.

Temporal⁃spatial three⁃way granular computing for dynamic text sentiment classification

Information Sciences,2022596551-566.

Qian W BZhou Y YQian Jet al.

Cost⁃sensitive sequential three⁃way decision for information system with fuzzy decision

International Journal of Approximate Reasoning,202214985-103.

[本文引用: 1]

Yao Y YWong S K M.

A decision theoretic framework for approximating concepts

International Journal of Man⁃Machine Studies,199237(6):793-809.

[本文引用: 1]

Yao Y Y.

Three⁃way decision:An interpretation of rules in rough set theory

The 4th International Conference on Rough Sets and Knowledge Technology. Gold Coast,AustraliaSpringer2009642-649.

[本文引用: 1]

周哲商琳.

一种基于动态词典和三支决策的情感分析方法

山东大学学报(工学版),201545(1):19-23.

[本文引用: 1]

Zhou ZShang L.

A sentiment analysis method based on dynamic lexicon and three⁃way decision

Journal of Shandong University (Engineering Science),201545(1):19-23.

[本文引用: 1]

Zhang Y BZhang Z FMiao D Qet al.

Three⁃way enhanced convolutional neural networks for sentence⁃level sentiment classification

Information Sciences,201947755-64.

[本文引用: 1]

张刚强刘群纪良浩.

基于序贯三支决策的多粒度情感分类方法

计算机科学,201845(12):153-159.

[本文引用: 1]

Zhang G QLiu QJi L H.

Multi⁃granularity sentiment classification method based on sequential three⁃way decisions

Computer Science,201845(12):153-159.

[本文引用: 1]

范琴刘盾叶晓庆.

基于序贯三支决策的代价敏感文本情感分析方法

模式识别与人工智能,202033(8):732-742.

[本文引用: 1]

Fan QLiu DYe X Q.

Cost⁃sensitive text sentiment analysis based on sequential three⁃way decision

Pattern Recognition and Artificial Intelligence,202033(8):732-742.

[本文引用: 1]

杨新刘盾李楸柯.

基于时空多粒度的序贯三支情感分析

模式识别与人工智能,202033(8):743-752.

[本文引用: 1]

Yang XLiu DLi Q Ket al.

Sequential three⁃way sentiment analysis based on temporal⁃spatial multi⁃granularity

Pattern Recognition and Artificial Intelligence,202033(8):743-752.

[本文引用: 1]

王琴刘盾.

结合集成学习的序贯三支情感分类方法研究

计算机工程与应用,202157(23):211-218.

[本文引用: 1]

Wang QLiu D.

Sequential three⁃way sentiment classification combined with ensemble learning

Computer Engineering and Applications,202157(23):211-218.

[本文引用: 1]

Chen JChen YHe Y Cet al.

A classified feature representation three⁃way decision model for sentiment analysis

Applied Intelligence,202252(7):7995-8007.

[本文引用: 2]

Yao Y YDeng X F.

Sequential three⁃way decisions with probabilistic rough sets

IEEE 10th International Conference on Cognitive Informatics and Cognitive Computing. Banff,CanadaIEEE2011120-125.

[本文引用: 1]

Mikolov TChen KCorrado Get al.

Efficient estimation of word representations in vector space. arXiv:

,2013.

[本文引用: 1]

Huang Z HXu WYu K.

Bidirectional LSTM⁃CRF models for sequence tagging

2015,arXiv:1508. 01991.

[本文引用: 1]

Krizhevsky ASutskever IHinton G E.

ImageNet classification with deep convolutional neural networks

Communications of the ACM,201760(6):84-90.

[本文引用: 1]

王琴. 基于深度学习和序贯三支决策的在线评论情感挖掘研究. 硕士学位论文. 成都西南交通大学2021.

[本文引用: 1]

Wang Q.

Research on online reviews sentiment mining based on deep learning and sequential three⁃way decision

Master Dissertation. ChengduSouthwest Jiaotong University2021.

[本文引用: 1]

国显达那日萨崔少泽.

基于CNN⁃BiLSTM的消费者网络评论情感分析

系统工程理论与实践,202040(3):653-663.

[本文引用: 1]

Guo X DZhao NCui S Z.

Consumer reviews sentiment analysis based on CNN⁃BiLSTM

Systems Engineering⁃Theory & Practice,202040(3):653-663.

[本文引用: 1]

Kingma D PBa J.

Adam:A method for stochastic optimization

2014,arXiv:.

[本文引用: 1]

/