上一篇提到了情感分析几个疑问,也许这些疑问可以给大家带来些启发,不过在研究这些疑问之前,我们还是需要详细了解一下微博的特征是怎么样的,会不会对我们对其进行情感分析产生影响。
除了一些很牛X的人,其实大多数的微博用户都是草根,甚至像笔者一样,草根都算不上,只是个小屌丝~微博的主人很少有用真名字的,大都是网名,由于是虚拟化的环境,所以发表意见可以无所顾忌;微博的传播往往是蒲公英式的,也就是一个微博主发出一条引人瞩目的微博,就会形成一个主题,体现为标签,其他的微博会围绕这个主题发表意见,下一轮微博还可能会针对上一轮微博发表意见,以此类推,于是就形成了一个带有鲜明主题的话题型微博群。话题型微博群规模的大小取决于人们对该主题的关注程度。这里我有一个疑问,就是这个蒲公英式传播。如果我们要进行情感分析,随着传播深度的增加,情感的结果会不会发生变化?之后发表意见的用户会不会受到之前评论用户的影响?这可能是个点。
与一般的微博不同,话题型微博的文本结构形式决定了它的语言特点:句子简短,负面倾向多,语句口语化程度强,表达情感强烈而理性评价淡化,评价对象在句中不直接出现,语言不够规范等等。下面我们就分别谈谈微薄的这些特点。
(1)句子简短,单句多
微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,人们是围绕这个话题发表意见,写微博,只要表达了心情、态度,三言两语也可,只字片语也行,所以与一般文体相比,话题型微博中句子相对简短,单句居多。
这可能就回到了先前讨论的话题,第一个问题,几句话能表达全情感吗?如果表达不全能作为用户的情感进行分析吗?分析的结果有效吗?第二个问题,由于话题性微博已经有明确的话题,所以,大多数的微博会缺少主语和宾语,这无疑会给我们的分析带来难度。我认为第一种情况可以使用共线链的思路来解决,也就是把该用户对于该微博的评论统一抓下来,进行统一的情感分析。这样做的好处是虽然用户可能无法再一条微博中表达出自己的情感,但却可以在多条微博中表达不同的情感。那在这种情况下,也就引出了第二个问题,随着微博的转发,用户的情感会产生变化吗?这个问题也可以共线得到结果。
(2)观点负面倾向多
话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。
这个是在其他的社交媒体中也会存在的情况,人的情感大体分为喜、怒、哀、乐、爱、恶、惧,可以看到,消极的情绪占了绝大部分。在这些情感中,每种情感又分为不同的层面,在每个层面上又有不同的等级,所以,建立一个有效的,全面的否定情感词典可能是必要的。一个好的情感词典能明确得到情感词汇的程度,而一个好的否定情感词典会得到一个精确而全面的分析结果。
(未完待续)