基于BiLSTM和CNN的序贯三支情感分类模型研究
1.
2.
Research on sequential three⁃way sentiment classification model based on BiLSTM and CNN
1.
2.
通讯作者:
收稿日期: 2023-08-10
基金资助: |
|
Received: 2023-08-10
关键词:
Keywords:
本文引用格式
赵梦宇, 孙京博, 魏遵天, 辛现伟, 宋继华.
Zhao Mengyu, Sun Jingbo, Wei Zuntian, Xin Xianwei, Song Jihua.
文本情感分类的主流方法有基于情感词典、经典的机器学习以及深度学习的方法.基于情感词典的文本情感分类方法主要通过构建情感词典的方式判断文本的情感极性,但情感词典具有一定的时效性,对于不同的领域需要构建多个情感词典,会耗费大量的人力和物力.基于机器学习的文本情感分类方法相比于基于情感词典的方法有一定程度的改进,克服了过度依赖情感词典的局限性,但仍需要对一系列的文本特征进行手工标记,不仅需要大量的人力资源,而且存在一定的主观因素[6].此外,随着深度学习相关研究的快速发展,很大程度解决了上述以情感字典和机器学习为代表的经典文本分析技术中存在的问题,取得了显著效果.目前主流的神经网络,例如RNN (Recurrent Neural Network),CNN (Convolutional Neural Networks),Transformer,BERT (Bidirectional Encoder Representations from Transformers)等,已经在很多情感分类任务中取得相对较好的效果.
值得注意的是,深度学习方法首先将待分类的文本输入神经网络以获取其可能分到类别的概率,然后根据概率值直接对其进行硬分类.由此,当面对极性不显著的边界数据时,神经网络的方法容易导致情感误分类.在情感二分类任务中,利用神经网络进行训练并根据其计算的概率值进行二值分类时,只能对中值附近的数据进行硬划分[7],如大于0.5为正向情感,小于等于0.5为负向情感.但概率在0.5附近的样本属于模糊样本,需进一步甄别,否则易导致数据所属类型的划分偏离甚至错误.由此,本文在深度学习训练过程中引入序贯三支决策的思想来解决上述问题.
三支决策通过“三分而治的思想”进行逐步求解,在“非黑即白”二支决策的基础上增加了延迟决策选项,将由原来的接受或拒绝两种决策选项变成接受、拒绝或延迟决策三种决策选项,这一过程更符合人类的思维认知与决策过程[8].为了高效处理复杂场景下的不确定性问题,Yao[9]基于粒计算的思想提出了序贯三支决策模型.类似地,粒计算是一种面向复杂问题求解的有效工具[10],通过运用不同的粒化准则可以从多个视角、多层次刻画复杂问题[11],能够通过构建多粒度空间对论域对象进行由粗到细的渐进式决策[12],已广泛应用于人工智能的多个领域.最初的序贯三支决策模型主要应用在信息表或者决策表中,利用属性约简的方法构建多层粒度特征表示,并将信息表中的属性视为特征.由于序贯三支决策的特殊结构和多阶段决策过程,非常适合挖掘海量数据的有效信息,因此序贯三支决策在情感分类领域的应用受到越来越多的学者的关注[13-15].
围绕传统的文本情感分类模型对极性不明显数据的分类性能提升问题展开研究,本文主要的贡献和创新如下.
(1)提出一种新的情感分类模型BiLCNN⁃S3WD,通过在深度学习的训练过程中融入序贯三支决策,提升模型捕捉文本情感信息的能力,从而提高分类性能.
(2)利用序贯三支决策从不同粒度对极性不明显数据下的文本情感信息进行挖掘,多维度地处理边界对象,提高模型的泛化能力.
(3)在online_shopping_10_cat和微博数据集上进行多组实验与对比分析,结果表明本文所提模型与传统方法相比,具有更高的分类精度.
1 相关工作
三支决策的理论起源于1992年Yao and Wong[16]首次将贝叶斯决策理论融入粗糙集理论中,提出决策粗糙集模型.2009年Yao[17]在决策粗糙集的理论基础上正式提出三支决策理论,其通过阈值
为了实现动态多步决策,Yao[9]在2013年正式提出序贯三支决策理论,即在每一个粒层下都将论域划分为正域、负域和边界域三个部分,且将上一层的边界域视为下一粒层的论域.随着粒层的增加,获取的信息逐步增多,边界域将逐渐变小,如果在最细粒层,边界域依旧不为空,则对边界域做二支决策.近年来,序贯三支决策在情感分类领域的应用逐渐增多,并取得了不错的效果.张刚强等[20]利用N⁃gram语言模型构成一种多粒度情感结构,提出一种基于序贯三支决策的多粒度情感信息表示方法.范琴等[21]基于序贯三支决策在提高分类质量的同时,降低了情感分类整体的决策代价.杨新等[22]构造了具有时空特性的序贯多层粒结构,在维持分类质量的前提下,大幅减少了情感分类代价.王琴和刘盾[23]基于序贯三支决策思想和集成学习的优势,构建了结合集成学习的多粒度序贯三支决策模型.Chen et al[24]提出一种分类特征表示三支决策模型,得到用于情感分类的正负域的特征表示.
2 预备知识
其中,
其中,
3 基于BiLCNN⁃S3WD的文本情感分类
本文提出一个基于BiLSTM、CNN和序贯三支决策的BiLCNN⁃S3WD模型进行情感分类,如图1所示.二分类情感分析任务中,情感包含积极和消极两种,通过三支决策将二分类情感分为三个部分,其对应关系设为:积极情感分到
图1
3.1 模型结构设计
3.1.1 输入层
对于
3.1.2 BiLSTM网络层
本模型通过BiLSTM网络将输入的信息
将最后一层正向反向的隐藏向量
3.1.3 序贯CNN网络层
序贯CNN网络将序贯三支决策的思想融入CNN的学习过程,结合CNN获取局部特征的特点和序贯三支决策延迟决策的优势,提取不同粒度的特征,增强模型的表达能力.本模型的序贯CNN网络层分四部分,每一部分都由卷积层、最大池化层、线性层及决策层组成.CNN卷积核的大小代表提取特征的粒度,通过设置CNN卷积核的大小对BiLSTM得到的隐藏层向量
其中,
3.2 BiLCNN⁃S3WD模型描述与算法
其中,
对于一段待分类文本,经过预处理后通过Word2vec层得到对应的词向量,由BiLSTM网络获取关于句子上下文的信息,输入序贯CNN网络中.首先,将该信息输入卷积核为2的CNN网络进行特征抽取,提取较窄感受野信息,根据Sigmoid函数计算出的概率值
输入:嵌入词向量
输出:情感分类结果
1.
2.for each
3.
4.
5.for each
6. if
7. else if not
8. for each
9.
10. if
11. else if
12. else
13. end if
14. end for
15. else ∥执行到最后一个粒度层,直接进行硬分类
16. for each
17.
18. if
19. else
20. end if
21. end for
22. end if
23.
24.end for
25.
26.
27.
28.return
4 实验结果
4.1 数据集描述
为了验证本文模型的性能,挑选中文微博情感分类语料库(https:∥github.com/dengxiuqi/weibo2018),online_shopping_10_ cat(https:∥www.datafountain.cn/datasets/56)数据集中的酒店类和计算机类,共三个实验数据集用于评测.每个数据集由若干条用户评论组成,每个用户评论至少包含一个句子,每个句子对应一种用户情感,即积极情感(1)或消极情感(0).
实验数据的具体统计如表1所示.对数据集进行预处理,首先进行去重操作,删除长度小于4的样本,将繁体字转为简体字,使用jieba库进行分词,删除无意义的符号和词汇.为了得到对下游任务更具有针对性的词向量,基于每个训练集各训练了一套相应的Word2vec词向量,设定词向量的维度为64,词频最小为1,迭代1000次.
表1 实验数据集
Table 1
数据集 | 数量 | 训练集 | 测试集(标签) |
---|---|---|---|
Hotel (online_shopping_10_cat) | 9998 | 3999(0),3999(1) | 1000(0),1000(1) |
Computer (online_shopping_10_cat) | 3991 | 1699(0),1792(1) | 297(0),203(1) |
中文微博情感 | 10500 | 3586(0),5414(1) | 1073(0),427(1) |
4.2 基线模型
为了更好地评估本文提出的模型性能,将其与以下七个基线模型进行比较,所有的基线模型都使用相同的Word2vec词向量.
(1)BiLSTM网络.
(2)BiLSTM网络训练得到的最后一层隐藏向量分别输入卷积核为2~5的CNN网络,得到四个不同的基线模型.
(3)DLSTWSC:通过训练保存四个模型作为四个不同粒层后选择SVM作为分类器.
(4)CFRT:一个根据互信息提取特征并进行三支决策分类方法.
4.3 结果分析
表2 三个数据集在不同模型下分类准确率对比
Table 2
模型 | Hotel | Computer | 中文微博情感 |
---|---|---|---|
BiLCNN⁃S3WD | 0.9152±0.0022 | 0.9236±0.0050 | 0.8193±0.0049 |
BiLSTM | 0.9123±0.0037 | 0.9082±0.0084 | 0.7977±0.0154 |
BiLSTM+CNN (kernel_size=2) | 0.9120±0.0027 | 0.9194±0.0020 | 0.7583±0.0231 |
BiLSTM+CNN (kernel_size=3) | 0.9129±0.0018 | 0.9200±0.0046 | 0.7999±0.0132 |
BiLSTM+CNN (kernel_size=4) | 0.9139±0.0029 | 0.9206±0.0047 | 0.7939±0.0190 |
BiLSTM+CNN (kernel_size=5) | 0.9130±0.0020 | 0.9192±0.0062 | 0.8095±0.0116 |
DLSTWSC | 0.9106±0.0015 | 0.9230±0.0000 | 0.7855±0.0164 |
CFRT | 0.8270±0.0023 | 0.8698±0.0018 | 0.8190±0.0012 |
表3 三个数据集在不同模型下分类召回率对比
Table 3
模型 | Hotel | Computer | 中文微博情感 |
---|---|---|---|
BiLCNN⁃S3WD | 0.9165±0.0023 | 0.9280±0.0137 | 0.8190±0.0059 |
BiLSTM | 0.9114±0.0037 | 0.9085±0.0101 | 0.7959±0.0102 |
BiLSTM+CNN (kernel_size=2) | 0.9130±0.0033 | 0.9194±0.0015 | 0.7591±0.0226 |
BiLSTM+CNN (kernel_size=3) | 0.9125±0.0034 | 0.9216±0.0055 | 0.7997±0.0134 |
BiLSTM+CNN (kernel_size=4) | 0.9145±0.0027 | 0.9209±0.0040 | 0.7946±0.0175 |
BiLSTM+CNN (kernel_size=5) | 0.9140±0.0030 | 0.9194±0.0073 | 0.8085±0.0118 |
DLSTWSC | 0.9110±0.0020 | 0.9259±0.0000 | 0.7806±0.0250 |
CFRT | 0.7377±0.0039 | 0.7581±0.0046 | 0.6564±0.0021 |
表4
三个数据集在不同模型下分类
Table 4
模型 | Hotel | Computer | 中文微博情感 |
---|---|---|---|
BiLCNN⁃S3WD | 0.9145±0.0047 | 0.9234±0.0051 | 0.8213±0.0044 |
BiLSTM | 0.9127±0.0045 | 0.9102±0.0085 | 0.8034±0.0100 |
BiLSTM+CNN(kernel_size=2) | 0.9120±0.0033 | 0.9188±0.0030 | 0.7687±0.0208 |
BiLSTM+CNN(kernel_size=3) | 0.9110±0.0020 | 0.9206±0.0054 | 0.8057±0.0118 |
BiLSTM+CNN(kernel_size=4) | 0.9135±0.0045 | 0.9184±0.0093 | 0.8010±0.0153 |
BiLSTM+CNN(kernel_size=5) | 0.9125±0.0040 | 0.9182±0.0057 | 0.8153±0.0105 |
DLSTWSC | 0.9100±0.0000 | 0.9278±0.0000 | 0.7882±0.0229 |
CFRT | 0.8100±0.0028 | 0.8254±0.0029 | 0.6737±0.0020 |
与BiLSTM模型和BiLSTM+CNN
4.4 实验分析
4.4.1 多粒度结果分析
表5 多粒度结果分析例句
Table 5
序号 | 句子 | 标签 |
---|---|---|
S1 | 不错,下次还考虑入住.交通也方便,在餐厅吃得也不错. | 1 |
S2 | 酒店早餐比较差,样数少,连包子馒头都供应不齐,8点后,很多东西都没,希望能好好改进. | 0 |
S3 | 刚刚经历了在丽江丽王酒店的痛苦经历,来到这里我被酒店的服务感动了,这才是真正的酒店,我觉得像回到家里一样.唯一的缺点是租车太贵了. | 1 |
表6 BiLCNN⁃S3WD不同粒层下的结果
Table 6
句子 | ||||
---|---|---|---|---|
S1 | 0.9951 | - | - | - |
S2 | 0.3510 | 0.2589 | - | - |
S3 | 0.5486 | 0.4975 | 0.5312 | 0.7367 |
4.4.2 阈值分析
分析阈值
图2
5 结论
本文从情感分类任务着手,提出一个基于BiLSTM和CNN的序贯三支决策BiLCNN⁃S3WD模型,利用序贯三支决策获取不同粒度层信息的能力,尝试动态地解决深度模型在分类边界附近硬分类误差大的问题.实验表明,所提BiLCNN⁃S3WD模型与传统方法相比,在三个数据集上都取得了较好的性能.由于阈值的选取对模型的结果有较大影响,未来工作将尝试融合多种方法进一步研究阈值的最佳选取问题,并探索引入决策代价矩阵以获得更好的性能表现.
参考文献
Opinion mining and sentiment analysis
Social media⁃based COVID⁃19 sentiment classification model using Bi⁃LSTM
Sentiment analysis system for Indonesia online retail shop review using hierarchy Naive Bayes technique
∥
Using the COVID⁃19 pandemic to assess the influence of news affect on online mental health⁃related search behavior across the United States:Integrated sentiment analysis and the circumplex model of affect
A fuzzy recommendation system for predicting the customers interests using sentiment analysis and ontology in e⁃commerce
自然语言处理在文本情感分析领域应用综述
Review of applications of natural language processing in text sentiment analysis
Three⁃way decisions based RNN models for sentiment classification
∥
三支决策——基于粗糙集与粒计算研究视角
Three⁃way decisions:Research perspectives for rough sets and granular computing
Granular computing and sequential three⁃way decisions
∥
粒计算研究综述
An overview of granular computing
A novel sequential three⁃way decision model with autonomous error correction
基于粒计算的不确定性分析
Uncertainty analysis based on granular computing
A cost⁃sensitive three⁃way combination technique for ensemble learning in sentiment classification
Temporal⁃spatial three⁃way granular computing for dynamic text sentiment classification
Cost⁃sensitive sequential three⁃way decision for information system with fuzzy decision
A decision theoretic framework for approximating concepts
Three⁃way decision:An interpretation of rules in rough set theory
∥
一种基于动态词典和三支决策的情感分析方法
A sentiment analysis method based on dynamic lexicon and three⁃way decision
Three⁃way enhanced convolutional neural networks for sentence⁃level sentiment classification
基于序贯三支决策的多粒度情感分类方法
Multi⁃granularity sentiment classification method based on sequential three⁃way decisions
基于序贯三支决策的代价敏感文本情感分析方法
Cost⁃sensitive text sentiment analysis based on sequential three⁃way decision
基于时空多粒度的序贯三支情感分析
Sequential three⁃way sentiment analysis based on temporal⁃spatial multi⁃granularity
结合集成学习的序贯三支情感分类方法研究
Sequential three⁃way sentiment classification combined with ensemble learning
A classified feature representation three⁃way decision model for sentiment analysis
Sequential three⁃way decisions with probabilistic rough sets
∥
Efficient estimation of word representations in vector space. arXiv:
,2013.
Bidirectional LSTM⁃CRF models for sequence tagging
ImageNet classification with deep convolutional neural networks
Research on online reviews sentiment mining based on deep learning and sequential three⁃way decision
基于CNN⁃BiLSTM的消费者网络评论情感分析
Consumer reviews sentiment analysis based on CNN⁃BiLSTM
/
〈 |
|
〉 |
