基于子事件的对话长文本情感分析

doi:10.13232/j.cnki.jnju.2023.03.011

基于子事件的对话长文本情感分析

杨京虎¹^,², 段亮^,¹^,², 岳昆¹^,², 李忠斌¹^,²

1.云南大学信息学院，昆明，650500

2.云南大学云南省智能系统与计算重点实验室，昆明，650500

Sentimenta analysis based on subevents for long dialogue texts

Yang Jinghu¹^,², Duan Liang^,¹^,², Yue Kun¹^,², Li Zhongbin¹^,²

1.School of Information Science and Engineering, Yunnan University, Kunming, 650500, China

2.Key Laboratory of Intelligent Systems and Computing of Yunnan Province, Yunnan University, Kunming, 650500, China

通讯作者: E⁃mail：duanl@ynu.edu.cn

收稿日期: 2023-02-15

基金资助:

云南省重大科技专项.  202202AD080001
云南省重点实验室专项.  202205AG070003
国家自然科学基金青年项目.  62002311
云南省教育厅科学研究基金.  2022Y010

Received: 2023-02-15

摘要

传统的情感分析方法主要针对句子、微博等形式的短文本，而对话长文本具有篇幅长、对话双方情感不同且情感易随对话发生变化等特点，使对话长文本中用户多重情感集成困难、情感分析任务精度低.为此，提出子事件交互模型TSI (Topic Subevents Interaction)、预训练模型ERNIE （Enhanced Language Representation with Informative Entities）和循环卷积神经网络（Recurrent Convolutional Neural Networks，RCNN）相结合的对话长文本情感分析模型（TSI with ERNIE⁃RCNN，TER）.该模型通过动态滑动窗口抽取子事件，保留文本关键特征，降低文本冗余度，基于抽取的子事件分析对话双方的情感来识别情感主体，并集成各子事件的情感特征来解决对话双方情感不一致的问题.在真实数据上的实验结果表明，TER的精确率、召回率与F1均优于现有模型.

关键词： 对话长文本 ; 情感分析 ; 子事件抽取 ; 预训练模型 ; 循环卷积神经网络

Abstract

Previous studies for sentiment analysis mainly focus on short texts such as sentences and microblogs text styles. Due to the long redundant text and the different and changeable sentiment of users，the integration of multiple sentiment of users is difficult and the precision of sentiment analysis task is low in the long dialogue text. For overcoming such problems，a long dialogue text sentiment analysis model TER (Topic Sub⁃Events Interaction with ERNIE⁃RCNN) is proposed. Firstly，TSI (Topic Subevents Interaction) is used to segment long dialogue text by the dynamic sliding window in order to retain the key features of the text and reduce the text redundancy. Secondly，ERNIE⁃RCNN is used to analyze the sentimental polarity of users in the subevents. Finally，our model identifies the sentiment agent to integrate the sentiment of each subevent and solve the problem of sentimental inconsistency. Experimental results show that TER outperforms baseline models in terms of precision，recall and F1⁃score.

Keywords： long dialogue text ; sentiment analysis ; subevent extraction ; pre⁃trained model ; recurrent convolutional neural network

PDF (832KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

杨京虎, 段亮, 岳昆, 李忠斌. 基于子事件的对话长文本情感分析. 南京大学学报（自然科学）[J], 2023, 59(3): 483-493 doi:10.13232/j.cnki.jnju.2023.03.011

Yang Jinghu, Duan Liang, Yue Kun, Li Zhongbin. Sentimenta analysis based on subevents for long dialogue texts. Journal of nanjing University[J], 2023, 59(3): 483-493 doi:10.13232/j.cnki.jnju.2023.03.011

情感分析旨在通过计算机技术对文本的主客观性、情绪、极性进行挖掘，对文本的情感倾向作出分类判断^［1］.通信、电商、医疗等行业存在大量客服与客户的对话场景，随之出现了如服务满意度分析、智能代理和意图识别^［2-3］等应用需求，其核心任务之一为对话长文本情感分析.然而，现有的研究集中在短文本情感分析任务，如百度AI情感分析的文本接收窗口限制在256个字以内.针对对话长文本的情感分析，实现整个对话长文本的情感分类，仍有待深入研究.

表1展示了一组通信业务的对话，可以看出，客服和客户在多轮对话中存在很多与文本情感无关的内容，但现有方法获取对话文本的核心情感存在困难.前两轮对话中客户表现出消极的情感倾向，而在最后一轮对话中，客户的情感倾向转变为积极.此外，客服在整体对话过程中表现出较为积极的情感，而客户则发生了较大的情感转变.

表1 一个通信业务对话的示例

Table 1 A dialogue of communication business

对话者	对话内容
客服	您好！很高兴为您服务.（积极）
客户	刚刚发信息说我已欠费五十元，我昨天才交一百元话费，怎么回事？（消极）
客服	非常抱歉，先生，您的资费…（积极）
客户	费用我承受不了，这个套餐是你们工作人员打电话叫我办理的，我当时在忙，还是给我换成以前的套餐吧.（消极）
…	…
客户	我明白了，这个费用还包括宽带对吧，不好意思啊，这个月太忙忘记了，谢谢你哈.（积极）
客服	先生您客气了，祝您生活愉快，再见！（积极）

新窗口打开| 下载CSV

因此，与传统情感分析任务不同，对话长文本情感分析任务存在如下挑战：（1）对话双方存在多重情感，集成困难.由于对话双方本身可能具有不同的情感，随着对话的进行，其情感还会发生变化，因此将对话双方不同的情感进行集成来确定整个文本的情感倾向，有一定的难度.（2）对话长文本的情感分析任务精度低.对话长文本篇幅长，存在大量噪声，使文本的每一部分内容对于推断整个文本情感倾向具有不同的价值，现有的方法对文本截断或随机采样，不能有效地解决该问题.（3）主流神经网络模型在短文本情感分析任务上表现优异，但受到输入文本长度的限制，对长对话文本情感分析任务的精度欠佳.

以表1为例，最初是“客户质疑欠费”，发展到“客户要求更换套餐”，最后“客户发现误解了资费情况并致歉”，一条对话长文本由多个随时间演化的相关子事件组成.子事件是文本重要内容的句子集合，也是文本内容的集中体现^［4］.通过抽取子事件，将长文本转化为短文本，在保留文本重要特征的同时也解决了长文本冗余的问题.因此，本文提出子事件交互模型（Topic Subevents Interaction，TSI），通过动态滑动窗口分割对话长文本，从对话长文本中抽取子事件，利用基于主题的模型LDA获取各窗口文本的主题分布，以此度量子事件的演化过程.

预训练模型是在大规模无监督语料上训练的，具有强大的语义表示能力.百度提出ERNIE （Enhanced Language Representation with Informative Entities）^［5］，对BERT^［6］进行改进，将句子中的短语、实体等语义单元掩码，重点学习对话类数据，将ERNIE作为嵌入模型能更好地对对话文本建模.循环卷积神经网络（Recurrent Convolutional Neural Networks，RCNN）^［7］能更好地获取文本上下文特征，兼有CNN无偏模型的优点，因此，本文提出ERNIE⁃RCNN模型学习子事件的情感特征.针对对话双方具有的多重情感使子事件情感集成困难的问题，本文提出一种识别情感主体的方法来确定整个对话长文本的情感倾向.

在真实的移动运营商的通讯业务数据上的实验结果表明，本文提出的TER （Topic Sub⁃events Interaction with ERNIE⁃RCNN）的精确率、召回率与F1均优于现有模型.值得注意的是，虽然TER是基于移动通讯应用场景提出的，但微信、淘宝、论坛等媒体都有类似的对话长文本数据，因而有广阔的应用前景.

1 相关工作

1.1　长文本情感分析

Pappagari et al^［8］将长文本分割后输入改进的BERT模型，获取文本特征进行分类.Xu et al^［9］提出CLSTM模型来获取长文本的整体语义信息，通过一种缓存机制存储情感特征.上述方法在长文本情感分类任务上取得了较好的效果，但没有考虑实际场景下长文本的每部分内容在推断文本情感倾向上具有的不同价值，如何在不陷入某些局部无关的文本下获得有效的核心情感是值得注意的问题.Sheng and Yuan^［10］设计新的截断方式，将文本标题、关键词等特征进行拼接，使用多个模型联合学习.Cheng et al^［11］对每篇文章提取两个主题句，结合标题等文本特征进行加权计算，最后使用投票机制完成情感分类.这些研究虽然注意了长文本的冗余性，但在建模时损失了大量文本特征，依赖带标题的文本，不适合对话长文本的情感分析.

1.2　对话文本情感分析

Hazarika et al^［12］考虑对话中用户情绪自我依赖关系及对话者之间的依赖关系，提出交互式对话神经网络模型，建模对话者的情感.Shen et al^［13］提出分层匹配神经网络，设计双向注意力机制捕捉对话双方的情感信息并互相预测.Wang et al^［14］研究通过增强的双向注意力网络，解决了通过单一问题或答案来推断情感会比较困难的问题.Hu et al^［15］建模对话时人的认知与推理思维，提出语境推理网络，通过感知和认知两个阶段学习上下文信息，可以有效地获取文本情感特征.Zhu et al^［16］提出以话题驱动且包含知识的Transformer模型，解决对话文本中不同主题下相同文本具有不同情感的问题.上述研究主要基于对话之间的上下文联系进行建模，但随着对话轮次的增加，文本中的噪声、对话中双方情感的不同及变化导致文本最终分类困难的问题未能解决.

1.3　子事件检测与抽取

相关研究主要分三类：命名实体识别结合特征工程、事件话题发现和文摘生成.命名实体识别结合特征工程通过对文本抽取关键词，并根据修辞状态、位置信息等来衡量句子重要性，但这类方法在建模时损失了大量情感特征，抽取的子事件缺少情感表达.周楠等^［17］总结事件话题，发现基于文档和词两个角度，算法抽取的子事件存在理解性弱、不确定性高等问题.文摘生成分文本分割算法和文本摘要算法.Memon et al^［18］采用文本分割实现文本不同主题的分割，但仍存在文本冗余的问题.采用文本摘要抽取子事件时，主要有生成式和抽取式两种方法，但生成式方法不适合长文本任务^［19］，抽取式方法无法保证子事件的连贯性与理解性.

2 TER模型

TER主要由输入层、嵌入层、子事件抽取层、特征学习层、特征融合层及输出层构成，模型的总体架构如图1所示.Word2vec与ERNIE分别获取输入文本的静态词向量和动态词向量，静态词向量用于TSI抽取子事件，动态词向量用于RCNN学习文本的情感特征.在特征融合层，将前一层输出的情感特征与子事件的时序和主题特征进行融合，得到最终的情感表达，在输出层得到最终分类结果.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 TER模型的整体架构图

Fig.1 The structure diagram of TER model

2.1　输入层

定义1

对话长文本d同时具有对话文本和长文本的特点，一个对话长文本 $d$ 由二元组 $(D, P_{d})$ 表示，其中， $D$ 是对话长文本的内容， $P_{d}$ 是对话长文本的对话双方.

对于输入 $d = \{t_{1}, t_{2}, \dots, t_{n}\}$ ， $t_{i} (1 \leq i \leq n)$ 表示对话长文本的第i个句子，TER在输入层对其进行不同的预处理，再分别输入Word2vec和ERNIE.

2.2　嵌入层

嵌入层使用Word2vec与ERNIE分别获取输入文本的静态词向量和动态词向量.静态词向量用于TSI确定对话长文本的主题核心词，在上下文中主题词含义不会改变，且静态词向量和动态词向量相比，可以减少模型抽取子事件的时间.而学习对话长文本中的情感特征时，需考虑同一词在不同上下文中具有不同情感倾向的问题，因此使用动态词向量用于RCNN学习文本的情感特征.

ERNIE由文本编码器（T⁃Encoder）和知识编码器（K⁃Encoder）两个模块组成.文本编码器捕获输入文本的词法和语义信息，知识编码器将知识图谱中的实体信息进行嵌入和融合.

在文本编码器中，输入句子 $t = \{w_{1}^{τ - 1}, w_{2}^{τ - 1},$

$\dots, w_{m}^{τ - 1}\} \in d$ ，其中， $w_{i}^{τ - 1}$ 代表 $τ - 1$ 时刻句子中的第 $i (1 \leq i \leq m)$ 个字，通过式（1）计算 $w_{i}^{τ - 1}$ 的词法和语义特征：

\begin{array}{l} \{w_{1}^{τ}, w_{2}^{τ}, \dots, w_{m}^{τ}\} = \\ T - E n c o d e r \{w_{1}^{τ - 1}, w_{2}^{τ - 1}, \dots, w_{m}^{τ - 1}\} \end{array}

（1）

其中， $\{w_{1}^{τ}, w_{2}^{τ}, \dots, w_{m}^{τ}\}$ 代表文本编码器的词嵌入输出，m为t的长度.

在知识编码器中，将 $\{w_{1}^{τ}, w_{2}^{τ}, \dots, w_{m}^{τ}\}$ 与输入句子 $t$ 中预训练得到的实体信息 $\{e_{1}^{τ}, \dots, e_{l}^{τ}\}$ 再次使用注意力机制并进行信息融合，根据式（2），得到最终的动态词向量嵌入 $\{w_{1}^{τ + 1}, w_{2}^{τ + 1}, \dots, w_{m}^{τ + 1}\}$ 与实体向量嵌入 $\{e_{1}^{τ + 1}, \dots, e_{l}^{τ + 1}\}$ ，将整个ERNIE作为嵌入层的第一个模型参数.

\begin{array}{l} \{w_{1}^{τ + 1}, w_{2}^{τ + 1}, \dots, w_{m}^{τ + 1}\}, \{e_{1}^{τ + 1}, \dots, e_{l}^{τ + 1}\} = \\ K - E n c o d e r (\{w_{1}^{τ + 1}, w_{2}^{τ + 1}, \dots, w_{m}^{τ + 1}\}, \{e_{1}^{τ}, \dots, e_{l}^{τ}\}) \end{array}

（2）

最后，使用词嵌入模型Word2vec在数据集上进行预训练，得到子事件抽取层的词来嵌入输入，作为嵌入层的第二个模型参数.

2.3　子事件抽取层

为了解决文本冗余造成的对话长文本情感分析任务精度低的问题，提出TSI从对话长文本中抽取子事件，在降低文本冗余度的同时保留文本关键特征，以子事件的演化过程代替整个对话长文本.

注意，在实际应用场景下，子事件是由对话双方在短时间内密切讨论而形成，排除日常对话中口语寒暄的影响，以对话者之间的一问一答作为一轮对话.定义子事件应多于两轮对话.

定义2

子事件 $s$ 由四元组 $(P_{s}, C_{s}, T_{s}, D_{s})$ 表示，其在三轮及以上对话中描述了同一件事情.其中， $P_{s}$ 表示子事件的参与用户； $C_{s}$ 表示子事件主题信息的核心词集合； $T_{s}$ 表示子事件主题信息的核心词集合，记录该子事件在整个文本中的时序信息； $D_{s}$ 表示对该子事件内容的描述.

TSI基于LDA主题模型，通过动态滑动窗口抽取子事件.LDA分为三层贝叶斯概率生成模型，由“文档⁃主题⁃词”构成，通过文本主题概率分布选择一种主题，再从该主题对应的词概率分布中抽取主题词.相关符号及其含义见表2.

表2 符号及含义

Table 2 List of notations

符号	含义
$n$	一条对话文本的句子数量
$u$	划分窗口时循环总次数
$l o c$	当前循环位置
$W_{a}$	滑动窗口起始位置
$W_{b}$	滑动窗口结束位置
$W_{t}$	当前滑动窗口起始位置
$Z$	滑动窗口的主题词分布
$C$	主题词间的相关度
$S$	子事件集合
$S i m_{c o s}$	主题词相似度
$M_{p}$	最大滑动窗口长度
$M_{q}$	最小滑动窗口长度
$δ$	滑动窗口的主题相似次数
$θ$	主题相似度阈值
$\partial$	子事件成立阈值
$ρ$	子事件位置判定阈值

新窗口打开| 下载CSV

TSI的建模过程如下：

（1）利用动态滑动窗口分割文本.滑动窗口边界的计算方法如下，初始为1.

u = M_{p} - M_{q} + 1

（3）

W_{b} = W_{a} + l o c + u - 1

（4）

（2）由LDA主题模型获取当前窗口下的主题词分布.

（3）文本相似性度量.设两个滑动窗口下的主题词分布分别为 $Z_{1}$ ， $Z_{2}$ ，分别存在于 $Z_{1}$ 和 $Z_{2}$ 中的主题词为 $A$ 和 $B$ ，对应的词向量分别为 $\vec{a}$ 和 $\vec{b}$ ，由式（5）计算 $S i m_{c o s}$ ：

S i m_{c o s} (A, B) = \frac{\vec{a} \cdot \vec{b}}{‖\vec{a}‖ \times ‖\vec{b}‖} = \frac{(a_{1}, \dots, a_{n}) \cdot (b_{1}, \dots, b_{n})}{\sqrt[]{\sum_{i = 1}^{n} {(a_{i})}^{2}} \times \sqrt[]{\sum_{i = 1}^{n} {(b_{i})}^{2}}}

(5)

其中， $a_{i}$ ， $b_{i}$ 分别代表 $\vec{a}$ ， $\vec{b}$ 的各个分量值.

（4）子事件检测.当 $δ$ 大于等于给定阈值 $\partial$ 时（本文取 $\partial = 4$ ，即在最小滑动窗口的基础上至少还进行了两轮对话）子事件成立，根据式（6）更新 $W_{a}$ ；如果在本次滑动窗口下未检测到子事件，则 $W_{a}$ 自增1.

W_{a} = W_{t} + M_{p} - m a x (l o c)

（6）

通过动态滑动窗口分割文本、文本主题推断、文本相似性度量、子事件检测这四个主要步骤，可以生成文本子事件，具体步骤见算法1.

算法1

基于动态滑动窗口的子事件抽取

输入：对话长文本 $d = \{t_{1}, t_{2}, \dots, t_{n}\}$

输出： $S$

1. $S \leftarrow \{\}, Z \leftarrow \{\}$

2. FOR $i = 1$ To $n$ Do

3. 由式（3）计算 $u$

4. FOR $j = 1$ To $u$ Do

5. 由式（4）计算 $W_{b}$

6. $Z \leftarrow Z ⋃ L D A (\{t_{w_{a}}, t_{w_{b}}\})$

7. END FOR

8. FOR $i = 0$ To $u$ Do

9. FOR $j = 0$ To $u - 1$ Do

10. 根据式（5）计算 $S i m_{c o s}$

11. IF $S i m_{c o s} > θ$ THEN

12. $δ \leftarrow δ + 1$

13. END IF

14. END FOR

15. IF $δ \geq \partial$ THEN

16. $S \leftarrow S ⋃ \{t_{w_{a}}, t_{w_{b}}\}$

17. 由式（6）更新 $W_{a}$

18. BREAK

19. END IF

20. END FOR

21.END FOR

22.RETURN S

若算法1未抽取到子事件，则由算法2选择与文本主题最相关的子事件替代.

算法2 主题子事件抽取

输入：对话长文本 $d = \{t_{1}, t_{2}, \dots, t_{n}\}$

输出： $S$

1. $S \leftarrow \{\}, Z \leftarrow \{\}$

2. $Z_{d} \leftarrow L D A (d)$

3.由式（3）计算 $u$

4. FOR $i = 1$ To $u$ Do

5. FOR $j = 1$ To $n$ Do

6. 由式（4）计算 $W_{b}$

7. $Z \leftarrow Z ⋃ L D A (t_{j})$

8. END FOR

9. FOR each $Z_{k}$ in $Z$ Do

10. $C \leftarrow S i m_{c o s} (Z_{d}, Z_{k})$

11. END FOR

12.END FOR

13. $S \leftarrow S ⋃ t_{C_{m a x}}$

14.RETURN $S$

算法1中，窗口划分部分（第4~7行）的时间复杂度为 $O (u)$ ，子事件检测部分（第8~20行）的时间复杂度为 $O (u^{2})$ ，因此，算法1的时间复杂度为 $O (u^{2} n)$ .由于实际中 $Z$ 的长度远小于 $n$ ，算法2的时间复杂度为 $O (u n)$ .

2.4　特征学习层

RCNN通过双向循环神经网络捕获文本上下文信息，利用最大池化层决策文本中的关键情感特征.本文使用长短期记忆网络（Long Short⁃Term Memory，LSTM）替换RCNN中的RNN，LSTM避免了RNN模型在反向传播时的梯度消失和梯度爆炸问题，能更好地捕捉子事件长距离语义关系.

RCNN结合文本的上下文来表示一个字，使用双向LSTM捕获字的特征.例如，设子事件抽取层输出的子事件 $S = (w_{1}^{τ + 1}, w_{2}^{τ + 1}, \dots, w_{n}^{τ + 1})$ ，通过式（7）和式（8），将 $S$ 输入双向LSTM中学习输入文本的上下文语义，通过正反两个方向的LSTM输出特征 $Y_{1}, Y_{2}$ ；根据式（9）和式（10），将 $Y_{1}, Y_{2}$ 进行拼接并通过激活函数tanh得到特征 $Y_{3}$ ；最后，将 $Y_{3}$ 映射到与预设情感极性空间维度相同的空间，进行最大池化，得到该子事件对话双方的情感极性分数 $Y_{4} = (Q_{0}, Q_{1}, Q_{2})$ ， $Q_{i}$ 表示在情感极性 $i$ 上的情感分数.

Y_{1} = \overset{⃖}{L S T M} (w_{1}^{τ + 1}, w_{2}^{τ + 1}, \dots, w_{n}^{τ + 1})

（7）

Y_{2} = \overset{⃖}{L S T M} (w_{n}^{τ + 1}, w_{n - 1}^{τ + 1}, \dots, w_{1}^{τ + 1})

（8）

Y_{3} = t a n h (c o n c a t (F_{1}, F_{2}))

（9）

Y_{4} = M a x P o o l i n g (F_{3})

（10）

2.5　特征融合层

从一条对话长文本中可能抽取出多个子事件，而每个子事件对于推断整个文本的情感倾向具有不同的价值.考虑子事件的主题特征和时序特征对整个文本情感倾向的影响，通过两种方式对子事件情感分数 $Y_{4}$ 进行更新.

（1）若子事件的主题与全文的主题相似，则该子事件体现了全文的中心思想，与整个文本联系更加紧密，因此该子事件对整个文本情感倾向的影响程度更大.因此，将 $Y_{4}$ 更新为 $Y_{5}$ ：

Y_{5} = Y_{4} \times \frac{N_{s} + N_{s t}}{N_{s}}

（11）

其中，主题相似性通过式（5）计算， $N_{s}$ 表示从该对话长文本中抽取的子事件的总数， $N_{s t}$ 表示与该对话长文本主题相似的子事件的数量.

（2）当用户情感发生变化时，用户的最终情感极性更能代表用户情感.如式（12），如果 $W_{b}$ 与 $n$ 的比值大于给定阈值 $ρ$ （本研究取 $ρ$ =0.7），则该子事件的位置处于整个对话的结束部分，对整个文本情感倾向的影响程度更大.将该子事件的情感分数 $Y_{4}$ 更新为 $Y_{6}$ ，如式（13）所示：

\frac{W_{b}}{n} > ρ

（12）

Y_{6} = Y_{4} \times (1 + n_{s r} \times 10^{- 1})

（13）

其中， $n_{s r}$ 表示用户情感波动时的情感极性数量.

为了解决对话双方具有不同情感极性的问题，在特征融合层通过确定情感主体来完成整个文本的情感分类.下面给出情感波动和情感主体的定义.

定义3

情感波动 $I$ 指同一用户在两个及以上子事件 $s$ 中表现的不同情感极性，由二元组 $(P_{s}, I_{P})$ 表示，其中， $P_{s}$ 表示 $s$ 的参与用户， $I_{P}$ 表示 $P_{s}$ 在 $s$ 中的情感极性.

用户情感波动的程度可以通过其对应的情感极性数量与情感变化情况来衡量.设对话双方都出现了情感波动，若其中一个用户在子事件中表现出更丰富的情感极性，则情感波动更大；若双方情感极性数量一致，则情感极性转变更大的用户情感波动更大.

定义4

情感主体 $G$ 指子事件 $s$ 中具有更强情感特征的用户，由三元组 $(P_{s}, I, G_{Q})$ 表示，其中， $P_{s}$ 表示 $s$ 的参与用户， $I$ 表示 $P_{s}$ 的情感波动情况， $G_{Q}$ 表示 $P_{s}$ 的情感分数.

模型选择情感波动的用户作为情感主体，若对话双方未出现情感波动，则选择情感分数更大的用户作为情感主体，将其作为特征融合层的输出 $y$ .

2.6　输出层

将 $y$ 转换为情感极性的类别，得到对话长文本最终的情感分析结果.

在模型训练过程中，本文联合学习TSI子事件抽取模型和RCNN特征学习模型，提升TER的分类性能.因此，损失函数分两部分：第一部分是TSI的损失函数，如式（14）所示；另一部分是RCNN的损失函数，如式（15）所示.

\begin{array}{l} p (D |α, β) = \\ \prod_{d = 1}^{M} \int p (θ_{d}| α) (\prod_{n = 1}^{N_{d}} \sum_{z_{d n}} p (z_{d n} |θ_{d}) p (w_{d n} |z_{d n}, β)) d θ_{d} \end{array}

（14）

L o s s (\hat{y}, y) = - \sum_{i = 1}^{P} \sum_{o = 1}^{O} y_{i}^{o} l g {\hat{y}}_{i}^{o}

（15）

其中，D表示语料库，即M篇文章的集合； $α$ 为生成每篇对话长文本文本主题的多项式分布的Dirichlet分布的参数； $β$ 为生成每篇文本中某个词的多项式分布的Dirichlet分布的参数； $θ_{d}$ 是第 $d$ 篇文本的主题分布，即多项式分布的参数； $w_{d n}$ 是第 $d$ 篇文本第n个词； $z_{d n}$ 是第 $d$ 篇文本第 $n$ 个词的主题； $P$ 为样本总数； $O$ 为情感类别数.

3 实验

3.1　实验环境与数据

硬件：Intel i9⁃10850 K处理器，NVIDIA TITAN V⁃12 G.软件：Windows 10系统，所有算法使用Pytorch实现.

采用移动运营商通讯业务的客服客户对话数据集mobile_communications（简称mc），包含移动运营商的客服营销、客户咨询和客户投诉的20000条对话长文本数据.每条文本有500~5000字，将其分为mc1，mc2和mc3三部分，用于不同的实验测试.其中，mc2包含800条数据，用于子事件测试；mc1和mc3的描述信息如表3所示，每条文本使用人工标注情感标签，分为无情感、积极和消极三种.

表3 实验使用的数据集描述信息

Table 3 Description of datasets used in experiments

数据集	无情感	积极	消极	样本合计
mc1	1321	1422	1257	4000
mc3	2721	2759	2520	8000

新窗口打开| 下载CSV

3.2　对比模型

选择九个基线模型（https：∥github.com/649453932）与本文TER进行情感分析对比实验，每个模型都使用相同的超参数.为了公平起见，对于初始学习率，各特征模型（TextCNN，TextRNN，FastText，DPCNN，TextRCNN）设为1e-3，类Transformer（Transformer，TodKat）模型及预训练模型（BERT，ERNIE）设为5e-5；所有模型的文本最大长度为512，dropout为0.5.采用精确率、召回率和F1为评价指标，最终结果为三个指标在三种情感极性分类上的宏平均值.

（1）TextCNN^［20］：使用多个卷积提取多种特征，再通过最大池化层保留最重要的特征信息.卷积核大小分别为 $(2,3, 4)$ ，每个尺寸的卷积核个数为256.

（2）TextRNN^［21］：使用双向LSTM捕捉文本长距离语义，引入多任务学习机制.每层LSTM包含128个神经元.

（3）FastText^［22］：使用分层Softmax降低分类器的计算代价，使用N⁃gram保存近距离词序信息.隐藏层包含256个神经元.

（4）DPCNN^［23］：使用深度残差网络结构，在采样时固定特征的数量，获取文本的长距离特征.卷积核大小为3，卷积核个数为256.

（5）TextRCNN^［7］：使用双向循环神经网络来最大程度地捕获上下文信息，再使用最大池化层决策文本中的关键特征.本文使用两层LSTM，每层LSTM包含256个神经元.

（6）Transformer^［24］：使用多头注意力机制学习特征，解决文本中的长距离依赖问题.隐藏层包含768个神经元.

（7）TodKat^［16］：采用话题驱动与知识感知的Transformer结构，预测文本每一个句子的情感倾向.本文采用投票机制预测最终情感分类结果.

（8）BERT^［6］：采用双向Transformer结构，结合掩码策略捕捉文本的词向量.隐藏层包含768个神经元.

（9）ERNIE^［5］：在大规模语料上预训练并融合多源数据知识.隐藏层包含768个神经元.

选择三种方法与TER进行子事件抽取对比实验.从信息性、准确性和理解性三方面对四种方法进行打分和排序^［25］，最好为1，最差为4，将排序的算数平均值作为子事件生成性能的指标.

（1）基于特征评分的方法：综合考虑文本中句子的位置、关键词、词频等信息来构成文本子事件.

（2）TextRank：是基于图的文本排序算法，对文本构建拓扑结构图，通过抽取文本中重要度较高的句子构成文本子事件.

（3）基于序列标注的方法：使用GitHub开源项目Jiagu（https：∥github.com/ownthink/Jiagu）.Jiagu以Bi⁃LSTM等模型为基础，在大规模语料上训练而成，通过对文本中句子的序列进行标注来抽取文本子事件.

3.3　各模型对对话长文本的情感分析实验

使用mc1测试TER和九个基线模型在对话长文本上情感分类的性能，实验结果如表4所示，表中黑体字表示性能最佳.

表4 各模型在对话长文本情感分析任务上的性能

Table 4 Experimental results of sentiment analysis on long dialogue texts

模型	精确率	召回率	F1
TER	76.38%	74.69%	75.53%
TextCNN	50.99%	44.00%	46.30%
TextRNN	49.07%	39.00%	41.54%
FastText	50.98%	40.00%	41.43%
DPCNN	52.16%	33.00%	35.37%
TextRCNN	57.88%	43.00%	44.76%
Transformer	60.93%	33.00%	31.55%
TodKat	59.28%	52.68%	55.79%
BERT	37.21%	61.00%	46.22%
ERNIE	39.15%	63.00%	48.29%

新窗口打开| 下载CSV

对比各基线模型，TER的三个评价指标均为最佳，因为其他模型在建模时损失了大量文本特征，表现较差.而TER通过对文本抽取子事件，在降低文本冗余的同时也保留了文本的重要特征.

3.4　子事件抽取实验

使用mc2数据集测试TSI与对比方法抽取子事件的性能，在同等条件下的评价结果如表5所示，表中黑体字表示性能最优.由表可见，TSI的三个评价指标都排名第一.TSI满足本文对子事件的定义，可读性较好，所以其准确性和理解性最优.由于判断子事件的信息是否重要存在一定的客观性，评价时还需考虑子事件的文本长度，因此TSI的信息性和对比方法相比，差别不大.

表5 TSI和对比方法在mc2数据集上的子事件评价指标对比

Table 5 Experimental results of TSI and other methods with subevents on the mc2 dataset

方法	信息性	准确性	理解性
TSI	1.9	1.04	1.83
特征评分	2.41	2.9	2.42
TextRank	3.38	3.31	3.19
序列标注	2.28	2.74	2.55

新窗口打开| 下载CSV

3.5　消融实验

为了验证TER各模块对对话长文本情感分析任务的影响，设计两组消融实验.

（1）子事件情感分析实验：验证子事件抽取层对TER在对话长文本情感分析任务上的有效性.TER与九个基线模型在mc3数据集上的对比实验结果如表6所示，表中黑体字表示性能最优.

表6 TER和九个基线模型在mc3数据集上的子事件情感分析任务的性能对比

Table 6 Experimental results of TER and nine base⁃line models with subevents sentiment analysis on the mc3 dataset

模型	精确率	召回率	F1
TER	89.15%	89.05%	89.21%
TextCNN	86.08%	86.23%	86.09%
TextRNN	81.35%	79.95%	80.20%
FastText	84.23%	83.90%	83.95%
DPCNN	86.39%	86.33%	86.30%
TextRCNN	87.53%	87.17%	87.24%
Transformer	81.51%	81.33%	81.39%
TodKat	82.96%	80.68%	81.80%
BERT	87.31%	87.26%	87.29%
ERNIE	87.39%	87.36%	87.37%

新窗口打开| 下载CSV

（2）预训练模型嵌入的实验：验证预训练模型作为嵌入层对TER在对话长文本情感分析任务上的有效性.选择在情感分析实验中表现较好的特征模型TextCNN，DPCNN和TextRCNN作为代表，将BERT和ERNIE嵌入，对比实验的结果如表7所示，表中黑体字表示性能最优.

表7 预训练模型嵌入实验结果对比

Table 7 Experimental results of pretrained embedding

模型	精确率	召回率	F1
ERNIE_TextRCNN	89.15%	89.05%	89.21%
TextCNN	86.08%	86.23%	86.09%
BERT_TextCNN	87.48%	87.51%	87.48%
ERNIE_TextCNN	88.41%	88.30%	88.33%
DPCNN	86.39%	86.33%	86.30%
BERT_DPCNN	87.99%	87.17%	87.26%
ERNIE_DPCNN	88.57%	88.08%	88.21%
TextRCNN	87.53%	87.17%	87.24%
BERT_TextRCNN	88.69%	88.65%	88.64%

新窗口打开| 下载CSV

子事件决定整个对话长文本的情感倾向，由表6可知，TER在子事件情感分析实验中性能最佳，和表现较好的BERT，ERNIE，TextRCNN相比，TER的三个评价指标约高2%.与表4对比可以发现，各对比模型对子事件的情感分析性能明显优于对话长文本，但TER在进行对话长文本情感分析时仍保持了较高的性能，证明了子事件抽取层在TER对对话长文本情感分析时的有效性.

表6与表7的两组实验结果表明，预训练模型具有强大的语义表示能力，总体优于基于特征的模型.将BERT和ERNIE嵌入后，三个模型各项指标均有提升，证明预训练模型能提取文本的深层语义，提升模型情感分析的性能.同时，ERNIE嵌入的效果优于BERT，证明预训练模型作为嵌入层对TER在对话长文本情感分析中的有效性.

3.6　超参数实验

对学习率设置不同的参数，观察学习率的变化对TER性能的影响.对比模型选择上述实验中表现较好的BERT和ERNIE，实验结果如图2所示.由图可见，学习率过低或过高均会降低模型性能.当学习率大于5e-6或低于1e-4时，各模型相继收敛，趋于稳定；当学习率为5e-5时，各模型的性能不再有明显的提升，对比模型逐渐逼近TER，但TER的F1整体上仍优于其他对比模型.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 学习率的变化对TER性能的影响

Fig.2 Performance of TER with different learning rates

3.7　定量分析实验

定量分析TER与对比模型对不同长度文本的情感分析结果，将mc1按文本长度分为五部分，实验结果如表8所示，表中黑体字表示结果最优.由表可见，TER在不同长度文本上的性能均为最佳，且表现稳定.总体上，各对比模型在500~1000字的文本上的准确率高于其他字数的文本，这是因为随着文本长度的增加，各对比模型建模时损失的特征也增加，而500~1000字的文本量级，对比模型能保留大部分文本特征.

表8 各模型对不同长度文本情感分析的准确率对比

Table 8 Accuracy of different models with different length texts based sentiment analysis

	500~ 1000字	1000~2000字	2000~3000字	3000~4000字	4000~5000字
TER	77.42%	75.58%	73.47%	76.00%	73.39%
TextCNN	50.00%	41.33%	40.00%	43.33%	45.00%
TextRNN	43.33%	41.30%	30.37%	33.33%	40.00%
FastText	50.00%	40.62%	43.75%	41.25%	43.75%
DPCNN	30.00%	36.96%	30.00%	38.89%	38.00%
Text⁃RCNN	56.67%	49.13%	43.33%	42.22%	49.17%
Transformer	53.33%	38.16%	43.33%	43.33%	45.89%
TodKat	56.11%	54.17%	52.47%	54.00%	55.16%
BERT	60.00%	58.00%	50.45%	50.11%	50.25%
ERNIE	60.33%	58.70%	50.65%	50.49%	50.67%

新窗口打开| 下载CSV

3.8　子事件抽取样例展示

用TER对mc1数据集中的对话长文本进行子事件抽取，并对其中两个子事件进行可视化展示，如图3所示.由图可见，该对话长文本中的对话双方具有不同的情感极性，且随对话的进行，情感发生了改变.TER从该对话长文本中抽取出两个子事件，子事件一由文本1至文本5组成，子事件二由文本17至文本21组成，以子事件的情感特征作为整个对话长文本的情感分类结果.根据定义3与定义4，客户产生了情感波动，作为情感主体，整个文本情感分类结果为积极.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 子事件抽取的可视化样例

Fig.3 Visual case of subevents extraction

4 结论

围绕对话长文本的情感分析任务，针对对话长文本篇幅长、对话双方情感不同、随着对话的进行情感发生变化等问题，本文首先抽取文本子事件，再集成各子事件的情感，提出一种基于TSI⁃ERNIE⁃RCNN的对话长文本情感分析模型，在真实数据上的实验结果证明了该模型的有效性.

TER模型虽然能较好地识别积极和消极情感，但和其他两类情感相比，无情感的识别更困难，降低了模型整体的精确率.接下来将探索其他深度学习模型，考虑使用多个模型联合学习，进一步提高模型的整体性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zhang

W X

， Li

， Deng

，et al.

A survey on aspect⁃based sentiment analysis：Tasks，methods，and challenges

2022，arXiv：.