基于多头注意力和词共现关系的方面级情感分析

doi:10.13232/j.cnki.jnju.2022.05.015

基于多头注意力和词共现关系的方面级情感分析

蔡国永, 兰天^,

桂林电子科技大学计算机与信息安全学院, 桂林，541004

Multi⁃head attention and word co⁃occurrence relation for aspect⁃based sentiment analysis

Cai Guoyong, Lan Tian^,

School of Computer and Information Security，Guilin University of Electronic Technology，Guilin，541004，China

通讯作者: E⁃mail：673533729@qq.com

收稿日期: 2022-05-04

基金资助:

国家自然科学基金. 61763007
广西科技创新驱动发展专项. AA19046004

Received: 2022-05-04

摘要

针对特定目标的情感分析是文本情感细粒度理解任务的重要内容.已有研究大多通过循环神经网络和注意力机制来建模文本序列信息和全局依赖，并利用文本依赖解析树作为辅助知识，但这些方法没有充分利用目标词与文本词之间的依赖关系，也忽略了训练语料库中的词共现关系，而词共现信息往往意味着一种语法搭配.为了解决上述问题，提出一种目标依赖的多头自注意力网络模型.该模型首先设计内联和外联两种不同的注意力机制用于建模文本词和目标词的隐藏状态和语义交互；其次，该模型构建了语料库级别和句子级别的词共现图，并通过图卷积网络将词共现信息融合进文本的特征表示学习并用于下游分类任务.在五个标准数据集上进行了对比实验，实验结果表明，提出的模型在方面级情感分析任务中的性能优于所有对比模型.

关键词： 方面级情感分析 ; 注意力机制 ; 图卷积神经网络 ; 词共现 ; 目标依赖

Abstract

Aspect⁃Based Sentiment Analysis (ABSA) aims to determine the sentiment polarity of a certain aspect in a review text. Most of the previous approaches model text sequence information and global dependence by recurrent neural network and attention mechanism，which didn't leverage the information between target and context. And these methods ignore the corpus level word co⁃occurrence information that can reflect the collocations in linguistics. To tackle the above problems，a target⁃dependent multi⁃head self⁃attention model is proposed. Firstly，different attention mechanisms are designed to construct the hidden state and linguistic interaction between context and target. Then，the corpus level word co⁃occurrence information is integrated into the feature representation of context by graph neural network. Results of contrast experiments held on five benchmark datasets show that the performance of this model is better than that of all other compared algorithms in ABSA task.

Keywords： aspect⁃based sentiment analysis ; attention mechanism ; graph neural network ; word co⁃occurrence ; target dependence

PDF (553KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

蔡国永, 兰天. 基于多头注意力和词共现关系的方面级情感分析. 南京大学学报（自然科学）[J], 2022, 58(5): 884-893 doi:10.13232/j.cnki.jnju.2022.05.015

Cai Guoyong, Lan Tian. Multi⁃head attention and word co⁃occurrence relation for aspect⁃based sentiment analysis. Journal of nanjing University[J], 2022, 58(5): 884-893 doi:10.13232/j.cnki.jnju.2022.05.015

基于方面的情感分析（Aspect⁃Based Sentiment Analysis，ABSA）的基本任务是提取细粒度的评论方面，识别提取方面（以下将方面称作目标词）表达的情感.例如，“The goods is excellent，but the customer service is so terrible.”该条评论涉及两个目标词，“goods”和“customer service”，而对这两个目标词表达的情感极性分别为“积极的”和“消极的”.长短时记忆网络（Long ShortTerm Memory，LSTM）避免了循环神经网络（Recurrent Neural Network，RNN）梯度消失和梯度爆炸的问题，在ABSA中，许多最近提出的模型都将LSTM与注意力机制结合在一起，即先利用LSTM对词向量进行序列信息的建模并从中挖掘情感信息，然后通过注意力机制让模型聚焦于句子中目标词的具体范围^［1-3］，取得了不错的效果.为了整合句子中的句法结构信息，一些研究^［4-6］提出基于图的方法，即利用文本依赖树来构建图，然后通过图卷积网络（Graph Convolutional Network，GCN）或图注意力网络（Graph Attention Network，GAT）将依赖信息从邻接词传播到目标词.研究结果表明，考虑了句法关系的模型在性能上优于没有考虑句法关系的模型.

虽然LSTM与注意力机制相结合的方法能减轻RNN自身结构带来的限制，并通过给上下文词分配重要性权重的方式改善文本表示，但是，不同上下文词对于文本情感表达的贡献度是不一样的，而且同一个上下文词对于文本中不同的目标词的重要程度也应该不同，距离目标词较近的上下文词重要程度应该大于距离目标词较远的上下文词.此外，在利用句子之外的辅助知识方面，已有的方法大多只利用了词与词之间的依赖关系，而忽略了语料库级别的词共现信息.我们认为频繁共现的两个词或多个词意味着它们在语法上是一种搭配.比如，在“This dress is okay，nothing special.”这句评论中，“nothing special”在语料库的训练集中共出现六次，代表消极的情绪.如果没有词共现这种辅助信息的帮助，模型可能将“okay”或“special”当作对“dress”的情感表达词，从而做出错误的预测.

为了利用语料库级的词共现等信息，本文设计了一种目标依赖的多头自注意力网络模型（Target Dependent Multi⁃Head Self⁃Attention，TD⁃MHSA）并应用于方面级情感分析任务.

本文的主要贡献：

（1）设计一个注意力编码层，构建目标词与上下文词的隐藏状态和两者之间语义交互.该层由两种注意力编码器组成，使模型能从不同角度构建目标词与上下文词之间的语义和语法信息.

（2）根据文本中的词在语料库中的共现信息构建一个词共现图，并通过图卷积网络将共现信息整合进文本的特征表示，以增强特征向量的表示能力.

（3）设计一个针对具体目标的多头自注意力层，进一步捕捉目标词与上下文之间的全局依赖特征.

（4）在多个基准数据集上进行了实验，实验结果证明本文的模型在性能上优于当前领先的模型.

1 相关工作

深度神经网络能自动提取文本中的特征，而且经神经网络处理后的文本表示，其维度不高，但包含了丰富的语义信息.许多学者的研究都已证明基于深度学习的方法优于传统的机器学习方法.Tang et al^［2］提出两种基于LSTM的模型，认为目标词应当分别与其左右两边的上下文特征相联系，并利用两个LSTM分别建模目标词的左右上下文.Zhang et al^［7］提出一种三通道的门控循环神经网络，用于学习目标词与其上下文之间的联系.Oh et al^［8］提出一个深度上下文关系感知网络模型，通过方面和观点传播模块以及显示自监督模块实现具有深度上下文信息的子任务之间的交互关系.

注意力机制在机器翻译任务中的成功应用吸引了众多学者的关注.Tang et al^［9］设计了一种基于注意力机制的多跳记忆网络模型（Memory Network，MemNet），在词嵌入表示的记忆上用多跳注意力来抽取更高级的语义信息.Wang et al^［1］为了让目标词参与注意力权重的计算，将目标词的嵌入和上下文词表示拼接起来，提出一种基于注意力的LSTM模型（Attention⁃based LSTM，ATAE⁃LSTM）.Chen et al^［3］提出循环注意力网络（Recurrent Attention Network on Memory，RAM），先用双向LSTM构建记忆，然后在此基础上应用多重注意力机制，最后将结果与门控循环单元非线性地结合在一起.Song et al^［10］提出一种注意力编码网络（Attentional Encoder Network，AEN），设计两种注意力机制的使用形式来分别对文本和目标词进行建模，并针对标签不可信问题提出了标签平滑正则化方法.Lin et al^［11］提出一种基于目标的多头自注意力机制，使模型能够捕捉句子中单词之间的全局依赖信息.

在引入额外辅助信息方面，Zhang et al^［4］提出一种特定目标图卷积网络模型（Aspect⁃Specific GCN，ASGCN），设计了一个多层GCN来将文本的依赖解析树中的依赖信息引入文本的特征表示.Sun et al^［6］提出一种基于目标依赖的图注意力网络模型，利用多层图注意网络将情感特征从重要的语法邻域词传播到目标词.Wang et al^［12］提出一个双重图卷积网络模型，设计一个具有语法知识的SynGCN模块来减轻依赖解析错误，同时设计一个基于注意力机制的SemGCN模块来捕获语义相关性.此外，还提出正交和差分正则化器，使两个模块互相影响从而提高模型性能.Li et al^［13］对普通依赖解析树进行重塑和剪枝，定义了一个以目标方面为根的统一的面向方面的依赖树结构，然后提出一个关系图注意力网络来编码新的树结构用于情感预测.

2 本文模型TD⁃MHSA

ABSA任务的样本数据包括文本序列 $w^{t} = \{w_{1}^{t}, w_{2}^{t}, \dots, w_{n}^{t}\}$ 和目标词序列 $w^{a} = \{w_{1}^{a}, w_{2}^{a}, \dots,$

$w_{m}^{a}\}$ ，其中，n为句子长度，m为目标词长度， $w_{i}^{t}$ 表示文本中的单词， $w_{i}^{a}$ 表示文本中包含的目标词，且 $w^{a}$ 是 $w^{t}$ 的子集.本文模型的目标是针对文本的每个目标词预测其情感极性 $Y \in \{1, - 1,0\}$ ，其中，1，-1，0分别表示“积极”“消极”和“中性”的情感极性.图1展示了目标依赖的多头自注意力网络（Target Dependent Multi⁃Head Self⁃Attention，TD⁃MHSA）模型的总体框架，其组成模块包括五部分：

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 TD⁃MHSA模型总体结构图

Fig.1 Structure of TD⁃MHSA

（1）文本和目标词嵌入层.对于给定的评论文本 $w^{t}$ 和文本中的目标词 $w^{a}$ ，使用预训练的BERT模型^［14］作为编码器来分别生成相应的文本嵌入 $e^{t}$ 和目标词嵌入 $e^{a}$ .

（2）注意力编码层.使用两种注意力编码器来分别建模文本的隐藏状态和句法结构，生成文本表示 $t^{i n t r a}$ 以及建模目标词和文本之间的语义交互和依赖信息，生成目标词表示 $a^{i n t e r}$ .

（3）图卷积编码层.为了在构建特征表示的过程中利用语料库中的词共现信息，通过GCN将文本词共现矩阵信息卷积进文本表示 $t^{i n t r a}$ 和目标词表示 $a^{i n t e r}$ 中，生成文本特征表示 $h^{t}$ 和目标词特征表示 $h^{a}$ .

（4）目标依赖自注意力层.使用自注意力机制对整合了词共现信息的特征表示 $h^{t}$ 和 $h^{a}$ 进行进一步的全局特征捕捉，构建最终的文本表示 $h^{t a}$ .

（5）输出层.将卷积层的输出 $h^{t}$ ， $h^{a}$ 及自注意力层的输出 $h^{t a}$ 输入到输出层，对它们进行平均池化操作，再通过softmax函数进行归一化后得到目标词的情感极性预测结果y.

2.1　文本和目标词嵌入层

以往的预训练词嵌入模型（如Word2vec，GloVe）的结构会受到单向语言模型的限制，因而也限制了模型的表征能力，使其只能获取单方向的上下文信息.而BERT模型利用Masked Language Model进行预训练并且采用深层的双向Transformer来构建整个模型，最终生成能融合左右上下文信息的深层双向语言表征.因此本文选择预训练的BERT模型作为词嵌入编码器.

模型的输入为文本 $w^{t}$ 和目标词 $w^{a}$ ，BERT模型将文本序列和目标词序列中的每个单词都映射为一个词向量，最终得到文本和目标词的嵌入表示 $e^{t} = \{e_{1}^{t}, e_{2}^{t}, \dots, e_{n}^{t}\}$ 和 $e^{a} = \{e_{1}^{a}, e_{2}^{a}, \dots, e_{m}^{a}\}$ .其中 $e_{i}^{t} \in R^{e m b_d i m}$ ， $e_{i}^{a} \in R^{e m b_d i m}$ ，emb_dim表示词嵌入的维度.为了使BERT模型能够更好地训练和微调，按照Devlin et al^［7］所述，在文本序列和目标词序列的头部加上分类标识符 $[C L S]$ ，在尾部加上分隔标识符 $[S E P]$ . $[C L S]$ 通常放在句首，含有该标识符的句子经过BERT映射后的特征向量可用于后续分类任务. $[S E P]$ 通常放在句末，用于分隔两个句子.如 $“ [C L S] + t e x t 1 + [S E P] + t e x t 2 +$

[S E P] ”

“ [C L S] + a s p e c t 1 + [S E P] + a s p e c t 2 +

[S E P] ”

2.2　注意力编码层

已有的研究大多使用LSTM模型来学习文本的结构特征和序列信息，但是LSTM的信息“记忆”能力不高.这里使用注意力机制作为LSTM的替代方案，在学习文本结构特征和序列信息的同时，刻画文本的隐藏状态和全局依赖信息.本层主要使用多头注意力.

注意力机制的输入有三个，分别为查询矩阵 $Q \in R^{n_{q} \times d_{q}}$ 、键矩阵 $K \in R^{n_{k} \times d_{k}}$ 、值矩阵 $V \in R^{n_{v} \times d_{v}}$ .其中 $d_{q}$ ， $d_{k}$ ， $d_{v}$ 分别为Q，K，V中向量的维度， $n_{q}$ ， $n_{k}$ ， $n_{v}$ 分别为Q，K，V中向量的个数.为了简便，设置 $d_{k} = d_{v}$ ，记为 $d_{m o d e l}$ .注意力机制的具体计算过程可以抽象为三步：

第一步，计算Q和K之间的相似性分Sim，可使用点积函数，具体计算如式（1）所示：

S i m_{i} = \sum_{j = 1}^{n_{q}} Q_{j} \cdot K_{i}

（1）

其中， $K_{i}$ 表示键矩阵K中的第i个向量， $Q_{j}$ 表示查询矩阵Q中的第j个向量， $n_{q}$ 表示Q中向量个数， $S i m_{i}$ 表示查询矩阵Q中每个向量与 $K_{i}$ 之间的相似性分.

第二步，对相似性分进行归一化处理，得到对应的权重系数，一般使用softmax函数，如式（2）所示：

a_{i} = s o f t m a x (S i m_{i}) = \frac{e^{S i m_{i}}}{\sum_{j = 1}^{n_{q}} e^{S i m_{j}}}

（2）

其中， $a_{i}$ 为值矩阵V中第i个向量 $V_{i}$ 对应的权重系数， $e^{S i m_{i}}$ 表示 $S i m_{i}$ 中第i个向量.

第三步，将权重系数矩阵a与V进行加权求和，得出最后的注意力分数，如式（3）所示：

A t t e n t i o n (Q, K, V) = \sum_{i = 1}^{n_{q}} a_{i} \cdot V_{i}

（3）

其中， $V_{i}$ 表示值矩阵V中第i个向量.

Vaswani et al^［15］认为多头注意力可以在多个并行的子空间中学习不同的注意力分数，并证明使用多头机制能增强注意力模型对文本隐藏状态刻画的能力，所以本研究也使用多头注意力机制来捕捉文本及目标词的依赖信息.多头注意力的计算如式（4）所示，其中， $W^{0} \in R^{h \times d_{h} \times d_{m o d e l}}$ 是一个可学习的参数矩阵，h是多头注意力的头数， $d_{h} = d_{m o d e l} / h$ ， $c o n c a t (\cdot)$ 表示将所有头拼接起来的拼接操作.式（5）中， $h e a d_{i}$ 表示第i个头所得到的注意力分数， $W_{i}^{Q}$ ， $W_{i}^{K}$ ， $W_{i}^{V} \in R^{d_{m o d e l} \times d_{h}}$ 是第i个头的映射矩阵.

M H A (Q, K, V) = c o n c a t (h e a d_{1}, h e a d_{2}, \dots, h e a d_{n}) W^{0}

（4）

h e a d_{i} = A t t e n t i o n (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V})

（5）

使用两种不同的注意力方式来构建编码器，一种为内联多头注意力（Intra⁃MHA），一种为互联多头注意力（Inter⁃MHA）.

内联多头注意力用来计算文本中单词之间的相互影响，从而捕捉文本的内部相关信息.对于词嵌入层输出的文本嵌入表示 $e^{t}$ ，可以通过式（6）得到一个构建了内部依赖信息的文本表示 $t^{i n t r a} = \{t_{1}^{i n t r a}, t_{2}^{i n t r a}, \dots, t_{n}^{i n t r a}\}$ ，其中， $t^{i n t r a}$ 是文本的特征表示， $t_{i}^{i n t r a}$ 表示上下文中第i个单词的特征表示.

t^{i n t r a} = M H A (e^{t}, e^{t}, e^{t})

（6）

互联多头注意力为了根据文本对目标词进行上下文感知建模，重点捕捉目标词与上下文词之间的依赖信息.将文本的嵌入表示作为查询矩阵Q，将目标词作为键矩阵K.对于文本嵌入表示 $e^{t}$ 和目标词嵌入表示 $e^{a}$ ，可以通过式（7）得到一个上下文感知的目标词表示 $a^{i n t e r} =$ ${a_{1}^{i n t e r}, a_{2}^{i n t e r}, \dots, a_{n}^{i n t e r}}$ ，其中， $a^{i n t e r}$ 是目标词的特征表示， $a_{i}^{i n t e r}$ 表示目标词中第i个单词的特征表示：

a^{i n t e r} = M H A (e^{t}, e^{a}, e^{a})

（7）

2.3　图卷积编码层

2.3.1　词共现图

当两个词在同一个句子中共同出现，称这两个词具有共现关系.以“We are family.”为例，“we”“are”“family”这三个词在同一句话中出现，所以它们两两之间都具有共现关系.在训练样本集中，两个词共现过的样本句子的数量记为它们的共现次数.根据使用的数据集构建一个全局词共现图 $C G^{g}$ ，该图是一个无向带权图，由一个结点集 $V^{g}$ 和一个边集 $E^{g}$ 构成，其中 $V^{g}$ 中的每个结点都代表语料库中的一个单词， $E^{g}$ 中的每条边都代表这两个词具有共现关系，边的权重表示这两个词总共在多少条样本评论中共现过.例如，在数据集中“nothing”和“special”在语料库中共计五条评论中共现过，所以它们的共现次数为五次，即边权重为5.

根据数据集中的每一条评论句子构建一个局部词共现图 $C G^{l}$ ，该图也是一个无向带权图，由结点集 $V^{l}$ 和边集 $E^{l}$ 构成，其中 $V^{l}$ 中的每个结点都代表该条评论文本中的一个单词， $E^{l}$ 中的每条边都代表两个词在该条评论中的共现关系，边的权重和全局词共现图中这两个词的边权重一致，表示这两个词在语料库中共现的次数.

全局共现图的作用是从全局的角度，即从语料库层面捕捉单词之间的共现信息.局部共现图的目的则是将词共现信息从语料库级别转换到句子级别，方便模型将词共现信息整合进句子表示.

2.3.2　基于词共现图的GCN

在构建了局部词共现图之后，根据文本中的单词，每条评论都可得到一个词共现矩阵 $A \in R^{n \times n}$ ，n为句子的长度.我们认为每个单词在语料库中都不与自己共现，即词共现矩阵A中对角线元素均设为0.

对于注意力编码层的两个输出 $t^{i n t r a}$ 和 $a^{i n t e r}$ ，将它们分别输入两个多层图卷积神经网络，并把它们作为各自多层网络中第0层的输入 $h^{0}$ ，之后每层的输入都为上一层的输出.在每层的卷积之前，为了弥补GCN无法感知文本序列信息的缺点，都对该层的输入 $h^{l}$ 进行一个位置关系的处理，计算如式（8）所示，其中， $h_{i}^{l}$ 是当前GCN层的输入中的第i个单词， $q_{i}$ 是单词i的位置权重，可由式（9）得到.

g_{i}^{l} = q_{i} h_{i}^{l}

（8）

q_{i} = \{\begin{array}{l} 1 - \frac{k + 1 - i}{n}, 1 \leq i \leq k + 1 \\ 0, k + 1 \leq i \leq k + m \\ 1 - \frac{i - k - m}{n}, k + m \leq i \leq n \\ 0, n < i \end{array}

（9）

式（9）中，n为评论句子的长度， $k + 1$ 为目标词起始位置， $k + m$ 为目标词结束位置.位置权重是通过计算上下文词与目标词之间的距离得到的，距离目标词越近，权重越大，所以靠近目标词的上下文词能对该目标词产生更大的影响.将处理后的输入 $g^{l}$ 和词共现矩阵A进行卷积，具体计算如式（10）和式（11）所示：

{\tilde{h}}_{i}^{l} = \sum_{j = 1}^{n} A_{i j} g_{i}^{l - 1} W^{l}

（10）

h_{i}^{l} = R e L U (\frac{{\tilde{h}}_{i}^{l}}{d_{i} + 1} + b^{l})

（11）

式（10）中， $g_{i}^{l - 1} \in R^{n \times h i d_d i m}$ 是上一层GCN输出的文本表示的第i个单词，hid_dim表示特征维度.式（11）中， $h_{i}^{l}$ 是当前GCN层输出的第i个单词， $d_{i} = \sum_{j = 1}^{n} A_{i j}$ 表示词共现矩阵中第i个单词的度.权重矩阵 $W^{l}$ 和偏置 $b^{l}$ 都是可学习的参数.以文本特征表示 $t^{i n t r a}$ 作为第0层输入的L层GCN的最终输出为 $h^{t} = \{h_{1}^{t}, h_{2}^{t}, \dots, h_{n}^{t}\}$ ，而以目标词特征表示 $a^{i n t e r}$ 作为第0层输入的L层GCN的最终输出为 $h^{a} = \{h_{1}^{a}, h_{2}^{a}, \dots, h_{n}^{a}\}$ .

2.4　目标依赖的自注意力层

自注意力机制^［12］是注意力机制的一种变体.首先通过查询矩阵Q和键矩阵K的点乘来获得二者的相似性，得出一个注意力分数.在计算注意力分数时，自注意力使用的是缩放点积函数.然后，为了防止分数过大和稳定梯度，对得出的分数进行缩放处理，即除以 $\sqrt[]{d_{m o d e l}}$ .接下来对注意力分数施加softmax函数进行归一化处理得到注意力权重，最后将注意力权重与值矩阵V进行加权求和，得到加权后的表示.具体计算如式（12）所示，其中， $S A (\cdot)$ 表示自注意力， $d_{m o d e l}$ 是K中向量的维度.

S A (Q, K, V) = s o f t m a x (\frac{Q K^{T}}{\sqrt[]{d_{m o d e l}}}) V

（12）

在得到融合了辅助信息的文本特征表示 $h^{t}$ 和目标词特征表示 $h^{a}$ 之后，利用多头自注意力机制来进一步获得目标依赖的文本表示 $h^{t a} = \{h_{1}^{t a}, h_{2}^{t a},$

$\dots, h_{n}^{t a}\}$ .具体计算如式（13）所示，其中， $M H S A (\cdot)$ 表示多头自注意力，其多头机制与2.2阐述的多头机制一致.

h^{t a} = M H S A (h^{a}, h^{t}, h^{t})

（13）

2.5　输出层

在最后的输出层，将得到的最终文本表示 $h^{t a}$ 与之前得到的特征表示 $h^{t}$ 和 $h^{a}$ 一同施加平均池化操作，再将平均池化的结果拼接起来得到最后的综合文本表示 $\tilde{h}$ .随后，将综合文本表示映射到分类空间 C 中，最后通过softmax函数归一化后得到情感极性分布，将概率最高的标签作为最终的预测结果.具体如式（14）至式（17）所示：

\tilde{h} = c o n c a t (a v g (h^{t}), a v g (h^{a}), a v g (h^{a}))

（14）

x = p r o j e c t (\tilde{h}) = {\tilde{W}}_{o}^{T} \tilde{h} + {\tilde{b}}_{o}^{T}

（15）

y = s o f t m a x (x) = \frac{e x p (x)}{\sum_{k = 1}^{C} e x p (x)}

（16）

\hat{y} = m a x (y) = m a x (y_{1}, y_{2}, y_{3})

（17）

式（14）中， $a v g (\cdot)$ 表示平均池化操作， $\tilde{h}$ 表示拼接后的结果.式（15）中， $p r o j e c t (\cdot)$ 表示映射函数，x表示映射后的结果， ${\tilde{W}}_{o}^{T} \in R^{1 \times C}$ 和 ${\tilde{b}}_{o}^{T} \in R^{C}$ 都是可学习的参数.式（16）中， $y \in R^{C}$ 是预测的情感极性分布.式（17）中， $\hat{y}$ 是最后的预测标签， $y_{1}$ ， $y_{2}$ ， $y_{3}$ 分别表示积极情感、中性情感、消极情感的概率.

2.6　模型训练

训练模型时采用标准的梯度下降算法对所有的参数进行训练和更新，然后通过交叉熵（Cross⁃entropy）损失函数来衡量真实标签的概率分布y与预测标签的概率分布 $\hat{y}$ 之间的误差，并通过最小化交叉熵来优化模型.交叉熵损失函数如式（18）所示，其中，J是训练样本的数量， $y_{i}$ 是第i个样本的真实标签， ${\hat{y}}_{i}$ 是第i个样本的预测标签， $Θ$ 表示所有可训练的参数，λ表示L₂正则化项的系数.

ζ = - \sum_{i}^{J} y_{i} l g {\hat{y}}_{i} + λ \sum_{θ \in Θ} θ^{2}

（18）

3 实验

3.1　数据集

为了验证本文模型在ABSA任务中的性能，在五个公开标准数据集上进行实验.其中一个为Twitter数据集^［16］，里面的文本都是来自Twitter的评论；其他四个数据集（Lap14，Rest14，Rest15，Rest16）均来自SemEval系列任务（SemEval 2014，2015，2016）^［17-19］.Lap数据集中的数据来自手提电脑领域的评论，而Rest中的数据来自宾馆领域的评论.这些数据集中都标注了三种情感极性：积极、中性和消极.表1展示了每个数据集的一些统计信息.

表1 数据集的统计信息

Table 1 Statistic information of datasets

数据集		积极标签	中性标签	消极标签
Twitter	训练集	1561	3127	1560
Twitter	测试集	173	346	173
Lap14	训练集	994	464	870
Lap14	测试集	341	169	128
Rest14	训练集	2164	637	807
Rest14	测试集	728	196	196
Rest15	训练集	912	36	256
Rest15	测试集	326	34	182
Rest16	训练集	1240	69	439
Rest16	测试集	469	30	117

新窗口打开| 下载CSV

3.2　实验设定

在词嵌入层，使用预训练的BERT模型作为编码器，因此词嵌入维度 $d_{e m b}$ 按照Devlin et al^［14］所述设置为768维.按照Chen et al^［20］的设定，隐藏状态的维度 $d_{h i d}$ 设置为300维.多头注意力机制中注意力头数h设置为8.在训练过程中，L₂正则化项的系数λ为10^-5，dropout率为0.1.使用Adam优化器来更新所有的参数，同时设置初始的学习率为0.001.最后采用准确率（Accuracy，ACC）和F1来评估模型在ABSA任务中的性能.

3.3　对比模型

为了验证本文模型在ABSA任务中的性能，选取了几个领先的代表性模型作为比较基准.

（1）非RNN的基准模型

Feature⁃based SVM：是基于人工标注的特征驱动的传统支持向量机模型^［21］.

MemNet：是基于记忆的网络模型.将多跳注意力层与外部记忆相结合，显式地捕捉每个上下文词相对于目标词的重要性^［9］.

（2）RNN的扩展模型

TD⁃LSTM：利用两个LSTM分别编码目标词左边和右边的上下文，然后将两个基于特定目标的文本表示拼接起来，用于预测目标词的情感极性^［2］.

ATAE⁃LSTM：是基于注意力机制的模型.将目标词与文本一同作为输入并在RNN中进行训练，然后通过带有注意力机制的LSTM得到用于分类的最终文本表示^［1］.该模型将目标词表示与文本表示结合起来，充分利用了目标词的信息.

RAM：是对MemNet的增强.通过双向LSTM来表示记忆，并用GRU网络将多头注意力的输出结合起来以生成最终的句子表示^［3］.

AEN：是基于注意力机制的模型.使用注意力机制分别对文本自身特征及文本与目标词之间的依赖特征进行建模，充分挖掘目标词与文本之间的依赖信息^［10］.

MNHMA：是基于层次多头注意力的记忆网络（Memory Network with Hierarchical Multi⁃Head Attention，MNHMA）.引入一种基于记忆旋转单元的语义信息提取策略以获取上下文中的长期语义信息，并构建记忆^［22］；还提出一种层次多头注意力机制来保存目标词信息，使模型能够关注句子中给定的目标词周围的上下文词.

ASGCN：是基于GCN的模型，在文本的依赖树上使用GCN，利用GCN将文本的句法信息和词之间的依赖信息整合进句子表示之中^［4］.

KumaGCN：通过门控机制动态地将词依赖图中的信息和自注意力网络学习到的潜在语法依赖图的信息相结合，以此来完善句子表示中的语法特征^［20］.

3.4　实验结果与分析

表2展示了对比实验的结果，表中黑体字表示每个数据集中最佳的实验结果，下划线表示次优的结果，“-”表示原文未得出该结果.

表2 对比实验结果

Table 2 Results of comparison experiments

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

新窗口打开| 下载CSV

由表可见，本文提出的TD⁃MHSA模型在四个数据集上的F1均为最佳.特别是在Lap14，Rest15和Twitter数据集上，和次优的实验结果相比，分别提升2.2%，1.26%和1.55%.准确率也是本文模型为最佳，只在Rest14数据集上比MNHMA模型低0.9%，可能的原因是MNHMA模型在任务中给定了句中的目标词，因此在情感分类准确率上会略高于本文模型.

在Rest16数据集上，本文模型的准确率和F1均低于KumaGCN模型，这是因为KumaGCN通过潜在语法图和词依赖图来构建句子中的语法和语义信息，使模型能捕捉到更完整的语义和语法信息，从而提高模型的性能.捕捉更完整的语义、语法信息也是本文模型未来改善的方向.

在基于RNN的所有模型中，TD⁃LSTM模型的性能处于中下游水平，而RAM，AEN和本文模型TD⁃MHSA在多数数据集上都稳超TD⁃LSTM.原因应该是TD⁃LSTM是基于LSTM的模型，只对目标词进行比较粗略的处理，没有利用好目标词与上下文词之间的依赖关系和语义交互信息.而RAM，AEN和TD⁃MHSA都是基于注意力机制的模型，都对目标词进行不同的处理，以达到充分利用目标词信息的目的.TD⁃MHSA达到的最佳结果证明本研究对于目标词与文本间依赖信息的利用是最有效的.

在Twitter数据集上，TD⁃LSTM，ATAE⁃LSTM，RAM模型的性能都不是非常好，原因可能是Twitter数据集中的数据来自用户的日常分享，文本长度通常较短，且不具备语法结构，因此基于LSTM和基于注意力机制的模型学习到的语法特征非常有限，无法做出很准确的预测.而ASGCN，KumaGCN和TD⁃MHSA的良好性能则说明引入外部信息，如文本的依赖解析树、词共现信息，能够提升模型性能.

3.5　消融实验

为了检验提出的TD⁃MHSA模型中各个模块对模型性能的影响，在所有数据集上都进行了消融实验，实验结果如表3所示，表中黑体字表示每个数据集中最佳的实验.

表3 消融实验结果

Table 3 Results of ablation experiments

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.26%	67.25%	88.31%	70.66%
model_bert	71.13%	68.62%	72.38%	66.44%	71.43%	65.57%	69.93%	55.39%	79.38%	67.65%
model_in	71.82%	68.40%	76.49%	72.78%	79.37%	71.44%	78.78%	60.22%	87.51%	68.49%
model_gcn	71.42%	67.37%	75.71%	71.85%	79.82%	70.68%	82.84%	64.35%	87.18%	66.61%
model_td	71.82%	69.04%	77.12%	72.68%	80.36%	71.35%	80.81%	62.32%	86.53%	68.29%

新窗口打开| 下载CSV

表中的model_bert模型是针对BERT词嵌入层的消融实验，采用GloVe模型来代替预训练的BERT模型.由表可见，使用GloVe进行词嵌入的模型在各个数据集上的效果都不如原模型，证明预训练的BERT模型在构建文本的向量表示上优于GloVe模型，且更精确的文本向量表示有助于模型学习文本中的潜在语义、语法信息，对后续的下游情感分类任务有较大的帮助.

表中的model_in模型是针对注意力编码层的消融实验，用一个前馈神经网络来代替注意力编码层.由表可见，模型的性能有所下降，证明注意力编码层确实能从不同角度构建目标词与上下文词之间的语义和语法信息，增强模型的表征能力，从而提升模型的性能.

表中的model_gcn模型是针对GCN编码层的消融实验，删除了GCN编码层，不使用额外的词共现信息.模型在所有数据集上的F1都不如原模型，特别是在Twitter数据集上，模型的性能下降，证明词共现信息的引入能帮助模型掌握语料库级别的语法搭配信息，减少情感分析过程中的错误几率，提升模型准确判断目标词情感极性的能力.

表中的model_td模型是针对目标依赖的自注意力层的消融实验，这里只用普通的自注意力机制，将文本的特征表示作为自注意力的查询值和键值.由表可见，目标依赖的自注意力层能挖掘目标词和文本之间的全局依赖信息，增强了特征表示的表征能力，有助于模型进行更精确的情感分析.

4 结论

针对ABSA任务，本文提出一种目标依赖的多头自注意力网络（TD⁃MHSA）模型.该模型首先设计一个注意力编码层来分别构建文本自身依赖特征及目标词与上下文词之间的语义交互信息；其次，为了利用辅助知识，构建了一个语料库级别的词共现图，并通过图卷积网络将共现信息融合进文本的特征表示中；最后，设计了目标依赖的多头自注意力层，进一步捕捉目标词与上下文之间的全局依赖信息.在五个基准数据集上进行了实验，实验结果表明TD⁃MHSA模型在五个数据集上的F1都优于对比的模型.在准确率方面，TD⁃MHSA模型只在Rest14和Rest16数据集上以0.5%和0.68%的差距略低于对比模型ASGCN.此外，对TD⁃MHSA各模块进行的消融实验证明各个模块的加入都在很大程度上促进了模型性能的改善.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Wang

Y Q

， Huang

M L

， Zhu

X Y

，et al.

Attention⁃based LSTM for aspect⁃level sentiment classification

∥Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin，TX，USA：ACL，2016：606-615.

[本文引用: 4]

[2]

Tang

D Y

， Qin

， Feng

X C

，et al.

Effective LSTMs for target⁃dependent sentiment classification

∥Proceedings of the 26th International Conference on Computational Linguistics：Technical Papers. Osaka，Japan：ACL，2016：3298-3307.

[本文引用: 3]

[3]

Chen

， Sun

Z Q

， Bing

L D

，et al.

Recurrent attention network on memory for aspect sentiment analysis

∥Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen，Denmark：ACL，2017：452-461.

[本文引用: 4]

[4]

Zhang

， Li

Q C

， Song

D W

Aspect⁃based sentiment classification with aspect⁃specific graph convolutional networks

∥Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong，China：ACL，2019：4568-4578.

[本文引用: 4]

[5]

Huang

B X

， Carley

Syntax⁃aware aspect level sentiment classification with graph attention networks

[6]

Sun

， Zhang

R C

， Mensah

，et al.

Aspect⁃level sentiment analysis via convolution over dependency tree

[本文引用: 2]

[7]

Zhang

M S

， Zhang

， Vo

D T

Gated neural networks for targeted sentiment analysis

∥Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix，AZ，USA：AAAI Press，2016：3087-3093.

[本文引用: 2]

[8]

， Lee

， Whang

，et al.

Deep context⁃ and relation⁃aware learning for aspect⁃based sentiment analysis

∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2：Short Papers). Online：ACL，2021：495-503.

[本文引用: 1]

[9]

Tang

D Y

， Qin

， Liu

Aspect level sentiment classification with deep memory network

∥Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin，TX，USA：ACL，2016：214-224.

[本文引用: 2]

[10]

Song

Y W

， Wang

J H

， Jiang

，et al.

Targeted sentiment classification with attentional encoder network

∥Tetko I，Kůrková V，Karpov P，et al. Artificial neural networks and machine learning：Text and time series. Springer Berlin Heidelberg，2019，11730：93-103.

[本文引用: 3]

[11]

Lin

Y M

， Wang

C Q

， Song

，et al.

Multi⁃head self⁃attention transformation networks for aspect⁃based sentiment analysis

IEEE Access，2021，9：8762-8770.

[本文引用: 2]

[12]

Wang

， Shen

W Z

， Yang

Y Y

，et al.

Relational graph attention network for aspect⁃based sentiment analysis

∥Proceedings of the 58^th Annual Meeting of the Association for Computational Linguistics. Online：ACL，2020：3229-3238.

[本文引用: 2]

[13]

R F

， Chen

， Feng

F X

，et al.

Dual graph convolutional networks for aspect⁃based sentiment analysis

∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1：Long Papers). Online：ACL，2021：6319-6329.

[本文引用: 1]

[14]

Devlin

， Chang

M W

， Lee

，et al.

Bert：Pre⁃training of deep bidirectional transformers for language understanding

∥Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，Volume 1 (Long and Short Papers). Minneapolis，MN，USA：ACL，2019：4171-4186.

[本文引用: 2]

[15]

Vaswani

， Shazeer

， Parmar

，et al.

Attention is all you need

∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach，CA，USA：Curran Associates Inc.，2017：6000-6010.

[本文引用: 1]

[16]

Dong

， Wei

F R

， Tan

C Q

，et al.

Adaptive recursive neural network for target⁃dependent twitter sentiment classification

∥Proceedings of the 52^nd Annual Meeting of the Association for Computational Linguistics (Volume 2：Short Papers). Baltimore，MD，USA：ACL，2014：49-54.

[本文引用: 1]

[17]

Pontiki

， Galanis

， Pavlopoulos

，et al.

SemEval⁃2014 Task 4：Aspect based sentiment analysis

∥Proceedings of the 8^th International Workshop on Semantic Evaluation (SemEval 2014). Dublin，Ireland：ACL，2014：27-35.

[本文引用: 1]

[18]

Pontiki

， Galanis

， Papageorgiou

，et al.

SemEval⁃2015 Task 12：Aspect based sentiment analysis

∥Proceedings of the 9^th International Workshop on Semantic Evaluation. Denver，CO，USA：ACL，2015：486-495.

[本文引用: 1]

[19]

Pontiki

， Galanis

， Papageorgiou

，et al.

SemEval⁃2016 Task 5：Aspect based sentiment analysis

∥Proceedings of the 10^th International Workshop on Semantic Evaluation. San Diego，CA，USA：ACL，2016：19-30.

[本文引用: 1]

[20]

Chen

C H

， Teng

Z Y

， Zhang

Inducing target⁃specific latent structures for aspect sentiment classification

∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Online：ACL，2020：5596-5607.

[本文引用: 2]

[21]

Kiritchenko

， Zhu

X D

NRC⁃Canada⁃2014：Detecting aspects and sentiment in customer reviews

∥Proceedings of the 8^th International Workshop on Semantic Evaluation. Dublin，Ireland：ACL，2014：437-442.

[本文引用: 2]

[22]

Chen

Y Z

， Zhuang

T H

， Guo

Memory network with hierarchical multi⁃head attention for aspect⁃based sentiment analysis

Applied Intelligence，2021，51(7)：4287-4304.

[本文引用: 2]

Attention?based LSTM for aspect?level sentiment classification

2016

... 基于方面的情感分析（Aspect⁃Based Sentiment Analysis，ABSA）的基本任务是提取细粒度的评论方面，识别提取方面（以下将方面称作目标词）表达的情感.例如，“The goods is excellent，but the customer service is so terrible.”该条评论涉及两个目标词，“goods”和“customer service”，而对这两个目标词表达的情感极性分别为“积极的”和“消极的”.长短时记忆网络（Long ShortTerm Memory，LSTM）避免了循环神经网络（Recurrent Neural Network，RNN）梯度消失和梯度爆炸的问题，在ABSA中，许多最近提出的模型都将LSTM与注意力机制结合在一起，即先利用LSTM对词向量进行序列信息的建模并从中挖掘情感信息，然后通过注意力机制让模型聚焦于句子中目标词的具体范围^［1-3］，取得了不错的效果.为了整合句子中的句法结构信息，一些研究^［4-6］提出基于图的方法，即利用文本依赖树来构建图，然后通过图卷积网络（Graph Convolutional Network，GCN）或图注意力网络（Graph Attention Network，GAT）将依赖信息从邻接词传播到目标词.研究结果表明，考虑了句法关系的模型在性能上优于没有考虑句法关系的模型. ...

... 注意力机制在机器翻译任务中的成功应用吸引了众多学者的关注.Tang et al^［9］设计了一种基于注意力机制的多跳记忆网络模型（Memory Network，MemNet），在词嵌入表示的记忆上用多跳注意力来抽取更高级的语义信息.Wang et al^［1］为了让目标词参与注意力权重的计算，将目标词的嵌入和上下文词表示拼接起来，提出一种基于注意力的LSTM模型（Attention⁃based LSTM，ATAE⁃LSTM）.Chen et al^［3］提出循环注意力网络（Recurrent Attention Network on Memory，RAM），先用双向LSTM构建记忆，然后在此基础上应用多重注意力机制，最后将结果与门控循环单元非线性地结合在一起.Song et al^［10］提出一种注意力编码网络（Attentional Encoder Network，AEN），设计两种注意力机制的使用形式来分别对文本和目标词进行建模，并针对标签不可信问题提出了标签平滑正则化方法.Lin et al^［11］提出一种基于目标的多头自注意力机制，使模型能够捕捉句子中单词之间的全局依赖信息. ...

... ATAE⁃LSTM：是基于注意力机制的模型.将目标词与文本一同作为输入并在RNN中进行训练，然后通过带有注意力机制的LSTM得到用于分类的最终文本表示^［1］.该模型将目标词表示与文本表示结合起来，充分利用了目标词的信息. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Effective LSTMs for target?dependent sentiment classification

2016

... 深度神经网络能自动提取文本中的特征，而且经神经网络处理后的文本表示，其维度不高，但包含了丰富的语义信息.许多学者的研究都已证明基于深度学习的方法优于传统的机器学习方法.Tang et al^［2］提出两种基于LSTM的模型，认为目标词应当分别与其左右两边的上下文特征相联系，并利用两个LSTM分别建模目标词的左右上下文.Zhang et al^［7］提出一种三通道的门控循环神经网络，用于学习目标词与其上下文之间的联系.Oh et al^［8］提出一个深度上下文关系感知网络模型，通过方面和观点传播模块以及显示自监督模块实现具有深度上下文信息的子任务之间的交互关系. ...

... TD⁃LSTM：利用两个LSTM分别编码目标词左边和右边的上下文，然后将两个基于特定目标的文本表示拼接起来，用于预测目标词的情感极性^［2］. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Recurrent attention network on memory for aspect sentiment analysis

2017

... RAM：是对MemNet的增强.通过双向LSTM来表示记忆，并用GRU网络将多头注意力的输出结合起来以生成最终的句子表示^［3］. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Aspect?based sentiment classification with aspect?specific graph convolutional networks

2019

... 在引入额外辅助信息方面，Zhang et al^［4］提出一种特定目标图卷积网络模型（Aspect⁃Specific GCN，ASGCN），设计了一个多层GCN来将文本的依赖解析树中的依赖信息引入文本的特征表示.Sun et al^［6］提出一种基于目标依赖的图注意力网络模型，利用多层图注意网络将情感特征从重要的语法邻域词传播到目标词.Wang et al^［12］提出一个双重图卷积网络模型，设计一个具有语法知识的SynGCN模块来减轻依赖解析错误，同时设计一个基于注意力机制的SemGCN模块来捕获语义相关性.此外，还提出正交和差分正则化器，使两个模块互相影响从而提高模型性能.Li et al^［13］对普通依赖解析树进行重塑和剪枝，定义了一个以目标方面为根的统一的面向方面的依赖树结构，然后提出一个关系图注意力网络来编码新的树结构用于情感预测. ...

... ASGCN：是基于GCN的模型，在文本的依赖树上使用GCN，利用GCN将文本的句法信息和词之间的依赖信息整合进句子表示之中^［4］. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Syntax?aware aspect level sentiment classification with graph attention networks

2019

Aspect?level sentiment analysis via convolution over dependency tree

2019

Gated neural networks for targeted sentiment analysis

2016

... 模型的输入为文本

w^{t}

和目标词

w^{a}

，BERT模型将文本序列和目标词序列中的每个单词都映射为一个词向量，最终得到文本和目标词的嵌入表示

e^{t} = \{e_{1}^{t}, e_{2}^{t}, \dots, e_{n}^{t}\}

和

e^{a} = \{e_{1}^{a}, e_{2}^{a}, \dots, e_{m}^{a}\}

.其中

e_{i}^{t} \in R^{e m b_d i m}

，

e_{i}^{a} \in R^{e m b_d i m}

，emb_dim表示词嵌入的维度.为了使BERT模型能够更好地训练和微调，按照Devlin et al^［7］所述，在文本序列和目标词序列的头部加上分类标识符

[C L S]

，在尾部加上分隔标识符

[S E P]

[C L S]

通常放在句首，含有该标识符的句子经过BERT映射后的特征向量可用于后续分类任务.

[S E P]

通常放在句末，用于分隔两个句子.如

“ [C L S] + t e x t 1 + [S E P] + t e x t 2 +

...

Deep context? and relation?aware learning for aspect?based sentiment analysis

2021

Aspect level sentiment classification with deep memory network

2016

... MemNet：是基于记忆的网络模型.将多跳注意力层与外部记忆相结合，显式地捕捉每个上下文词相对于目标词的重要性^［9］. ...

Targeted sentiment classification with attentional encoder network

2019

... AEN：是基于注意力机制的模型.使用注意力机制分别对文本自身特征及文本与目标词之间的依赖特征进行建模，充分挖掘目标词与文本之间的依赖信息^［10］. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Multi?head self?attention transformation networks for aspect?based sentiment analysis

2021

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Relational graph attention network for aspect?based sentiment analysis

2020

... 自注意力机制^［12］是注意力机制的一种变体.首先通过查询矩阵Q和键矩阵K的点乘来获得二者的相似性，得出一个注意力分数.在计算注意力分数时，自注意力使用的是缩放点积函数.然后，为了防止分数过大和稳定梯度，对得出的分数进行缩放处理，即除以

\sqrt[]{d_{m o d e l}}

.接下来对注意力分数施加softmax函数进行归一化处理得到注意力权重，最后将注意力权重与值矩阵V进行加权求和，得到加权后的表示.具体计算如式（12）所示，其中，

S A (\cdot)

表示自注意力，

d_{m o d e l}

是K中向量的维度. ...

Dual graph convolutional networks for aspect?based sentiment analysis

2021

Bert：Pre?training of deep bidirectional transformers for language understanding

2019

... （1）文本和目标词嵌入层.对于给定的评论文本

w^{t}

和文本中的目标词

w^{a}

，使用预训练的BERT模型^［14］作为编码器来分别生成相应的文本嵌入

e^{t}

和目标词嵌入

e^{a}

. ...

... 在词嵌入层，使用预训练的BERT模型作为编码器，因此词嵌入维度

d_{e m b}

按照Devlin et al^［14］所述设置为768维.按照Chen et al^［20］的设定，隐藏状态的维度

d_{h i d}

设置为300维.多头注意力机制中注意力头数h设置为8.在训练过程中，L₂正则化项的系数λ为10^-5，dropout率为0.1.使用Adam优化器来更新所有的参数，同时设置初始的学习率为0.001.最后采用准确率（Accuracy，ACC）和F1来评估模型在ABSA任务中的性能. ...

Attention is all you need

2017

... Vaswani et al^［15］认为多头注意力可以在多个并行的子空间中学习不同的注意力分数，并证明使用多头机制能增强注意力模型对文本隐藏状态刻画的能力，所以本研究也使用多头注意力机制来捕捉文本及目标词的依赖信息.多头注意力的计算如式（4）所示，其中，

W^{0} \in R^{h \times d_{h} \times d_{m o d e l}}

是一个可学习的参数矩阵，h是多头注意力的头数，

d_{h} = d_{m o d e l} / h

，

c o n c a t (\cdot)

表示将所有头拼接起来的拼接操作.式（5）中，

h e a d_{i}

表示第i个头所得到的注意力分数，

W_{i}^{Q}

，

W_{i}^{K}

，

W_{i}^{V} \in R^{d_{m o d e l} \times d_{h}}

是第i个头的映射矩阵. ...

Adaptive recursive neural network for target?dependent twitter sentiment classification

2014

... 为了验证本文模型在ABSA任务中的性能，在五个公开标准数据集上进行实验.其中一个为Twitter数据集^［16］，里面的文本都是来自Twitter的评论；其他四个数据集（Lap14，Rest14，Rest15，Rest16）均来自SemEval系列任务（SemEval 2014，2015，2016）^［17-19］.Lap数据集中的数据来自手提电脑领域的评论，而Rest中的数据来自宾馆领域的评论.这些数据集中都标注了三种情感极性：积极、中性和消极.表1展示了每个数据集的一些统计信息. ...

SemEval?2014 Task 4：Aspect based sentiment analysis

2014

SemEval?2015 Task 12：Aspect based sentiment analysis

2015

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

SemEval?2016 Task 5：Aspect based sentiment analysis

2016

Inducing target?specific latent structures for aspect sentiment classification

2020

... 在词嵌入层，使用预训练的BERT模型作为编码器，因此词嵌入维度

d_{e m b}

按照Devlin et al^［14］所述设置为768维.按照Chen et al^［20］的设定，隐藏状态的维度

d_{h i d}

... KumaGCN：通过门控机制动态地将词依赖图中的信息和自注意力网络学习到的潜在语法依赖图的信息相结合，以此来完善句子表示中的语法特征^［20］. ...

NRC?Canada?2014：Detecting aspects and sentiment in customer reviews

2014

... Feature⁃based SVM：是基于人工标注的特征驱动的传统支持向量机模型^［21］. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

Memory network with hierarchical multi?head attention for aspect?based sentiment analysis

2021

... MNHMA：是基于层次多头注意力的记忆网络（Memory Network with Hierarchical Multi⁃Head Attention，MNHMA）.引入一种基于记忆旋转单元的语义信息提取策略以获取上下文中的长期语义信息，并构建记忆^［22］；还提出一种层次多头注意力机制来保存目标词信息，使模型能够关注句子中给定的目标词周围的上下文词. ...

... Results of comparison experiments

Table 2

模型	Twitter		Lap14		Rest14		Rest15		Rest16
模型	ACC	F1	ACC	F1	ACC	F1	ACC	F1	ACC	F1
TD⁃MHSA	74.13%	72.32%	77.90%	74.64%	80.27%	72.57%	80.76%	67.25%	88.31%	70.66%
SVM^[18]	63.40%	63.30%	70.49%	-	80.16%	-	-	-	-	-
MemNet^[10]	71.48%	69.90%	70.46%	65.17%	79.61%	69.64%	77.31%	58.28%	85.44%	65.99%
TD⁃LSTM^[2]	70.80%	69.00%	71.64%	66.49%	79.29%	70.25%	-	-	-	-
ATAE⁃LSTM^[1]	68.79%	66.37%	69.28%	62.68%	77.50%	66.03%	-	-	-	-
RAM^[3]	69.36%	67.30%	74.49%	71.35%	80.23%	70.80%	79.30%	60.49%	85.58%	65.76%
AEN^[11]	72.83%	69.81%	73.51%	69.04%	80.98%	72.14%	-	-	-	-
MNHMA^[21]	71.68%	69.90%	75.08%	70.91%	81.25%	72.32%	-	-	-	-
ASGCN^[4]	72.15%	70.40%	75.55%	71.05%	80.77%	72.02%	79.89%	61.89%	88.99%	67.48%
KumaGCN^[22]	72.45%	70.77%	76.12%	72.24%	-	-	80.69%	65.99%	89.39%	73.19%

〈

〉