• Semi-supervised dimensional sentiment analysis with variational autoencoder


    论文信息:论文代码,Knowledge-Based Systems 2018.

    概述

    传统的情感分析方法主要用于对文本的情感极性(例如,积极,消极和中立)或情感类别(例如,喜怒哀乐)进行分类。但是,这些方法都是粗粒度的,可能会忽略不同文本之间的细微情感差异。为了解决这个问题,研究者们提出了维度情感分析(DSA),从文本中挖掘细粒度的情感信息。

    尽管有监督的DSA方法目前已经比较成熟了,但是它们需要大量的标注样本训练模型。因此该论文提出了一个基于变分自编码器(VAE)的半监督DSA模型。该模型包含三个模块:编码模块、情感预测模块和解码模块。编码模块通过LSTM将文本编码为向量,情感预测模块从不同维度预测文本情感分值,解码模块构建隐空间并重构文本。

    背景知识

    变分自编码器的基础知识可以从这里获得。本文对基本变分自编码器和半监督变分自编码器进行了简单讲解,这里给出一个初略的比较图。基本变分自编码器结构如下:

    而半监督变分自编码器结构如下图:

    方法

    该论文提出的DSA模型主要结构如下图所示:

    编码模块

    假设文本序列为(s=[w_1,w_2,dots,w_N])(w_i)表示第(i)个单词。编码模块第一层将每个单词(w_i)映射为向量(e)。向量(e)由两部分拼接组成,分别为词向量(e^w)和part-of-speech (POS)向量(e^p)。第一层得到的向量序列([e_1,e_2,dots,e_N])再输入到第二层LSTM中,最终得到文本的隐向量(mathbf{s})

    情感预测模块

    情感预测模块也包含两个部分。第一部分是一个两层的Bi-LSTM,以文本向量序列为输入编码得到隐向量(mathbf{h})。第二部分是一个全连接层,用于预测情感分值(mathbf{y})

    解码模块

    解码模块用于重建输入文本。该模块包含三个部分。

    第一部分是线性变换模块,它由两个全连接层组成,用于学习变分自编码器的均值向量(mu)和标准差向量(sigma)。这部分输入为编码模块和情感预测模块的输出,即([mathbf{y};mathbf{s}])。 因此,(mu)(sigma)的计算公式为:

    [mu = W_{mu}[mathbf{y};mathbf{s}] + b_{mu} \ sigma = W_{sigma}[mathbf{y};mathbf{s}] + b_{sigma} ]

    第二部分是一个采样模块,它用于从高斯分布(mathcal{N}(mu,diag(sigma^2)))中采样隐变量(z)。这里同样使用的是变分自编码器中的重参数化技巧。

    第三部分是一个LSTM,用于重构输入文本(s)。它将隐变量(z)作为原始输入,接下来每一步的输入都是前一步的输出。

    和一样,该论文的优化目标可以表示如下:

    [egin{aligned} -mathcal{L}(x,y) & = ELBO(phi, heta) \ &= mathbb{E}_{q_{phi}(z|x,y)}[log p_{ heta}(x|z)] - KL(q_{phi}(z|x,y)||p(z|y)) + log p_{ heta}(y) end{aligned} ]

    但是,由于DSA是回归任务,因此项(q_{phi}(y|x))的含义与Kingma et al., (2014)中的分类任务不同,并且难以得出(log p_{ heta}(x))的ELBO。 因此,对于未标注的数据,损失函数(mathcal{L}(x,y))中的情感得分(y)由情感预测模块给出。对于已标注数据,还有一个用于回归损失的项。模型的最终目标函数是:

    [mathcal{J} = sum mathcal{L}(x,y) + alpha sum_{(x,y)in S_l} mathcal{F}(y) ]

    (alpha)用来衡量回归损失的重要性,(mathcal{F})是回归损失函数,论文中用的是平均绝对误差MAE。

    在Kingma et al., (2014)中提出的半监督VAE架构中,标签(y)也被当作隐变量,并与(z)组合以重构输入样本(x)。这篇论文的做法不同,解码模块中的隐变量(z)是通过(x)(y)获得的。因此,隐变量可以同时对文本的情感和语义信息进行编码,这可能对构建高质量的隐空间有利。另外,根据其他研究者的发现,情绪得分通常是不平衡的,并且不遵循高斯分布,这将导致传统半监督VAE模型出现额外的KL散度。这篇论文认为这种方式生成的隐空间可能会更平滑。

    在该模型中,未标注数据的情感分数(y)由情感预测模块预测,并且解码模块依赖于预测的情感分数以及文本编码来重构输入文本。因此,为了更好地重构输入文本,情绪预测模块对标记和未标记的文本会进行更准确的情绪预测。因此,作者认为这种方法可以利用未标注数据中的有用信息来训练DSA模型。

  • 相关阅读:
    【微信公众号开发】【13】批量导出公众号所有用户信息到Excel
    【实战问题】【1】@PostConstruct 服务启动后加载两次的问题
    敌兵布阵(树状数组)
    Java大数应用
    Exponentiation(java 大实数)
    确定比赛名次(拓扑排序)
    487-3279(输入外挂)
    More is better(并查集)
    How Many Tables(并查集)
    Convex(扫描线降维)
  • 原文地址:https://www.cnblogs.com/weilonghu/p/12576964.html
Copyright © 2020-2023  润新知