话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段。中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整、微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢。在现在的网络上,用户通过网络主动地表达自己的观点或对其他人或事件的态度,主观性强;微博载体规定的语言只有140字,使信息在微博中呈现出碎片化、即时化和移动化的特性,而不再是具有完整的上下文信息。通过微博自由、便捷、即时地抒发自己的情感,已成为互联网上的时尚,同时也使得其成为热点事件产生和谈论的重要场所,其中热点事件指某一时间内被广泛关注、争论、议论的事件、话题或者信息,因此对微博平台中热点事件的发现、监控及管理等方面的研究就显得很重要。
微博作为一种新兴媒体,有它独特的文本结构形式。话题型微博指的是围绕某一话题即标签阐发意见、进行讨论的微博形式,因此在观点句的使用、表达观点使用的语言手段以及评价对象的隐现上也有与众不同的特点。
我觉得“究竟140个字能表达多少情感”这个问题非常值得讨论。可能在大多数情况下,对于一个事件的讨论仅仅简单的叙述就要超过140了,更别提表达一种深刻的意见。用户对于事件的评论更多的是一种调侃而并非真正的评论,这就导致了两方面的问题:第一,在无法全面表达出用户对问题的态度的前提下,用户发表的评论微博能不能反映用户的真实情感态度;第二,由于用户情感表达不全面,可能用户发表的情感微博反而成为了用户潜意识的第一情感,而在这个阶段可能还需要对用户进行心理学、行为学上的分析,这也就超出了“微博情感分析”的范围了。所以,如果要想真正的挖掘出用户情感的倾向,用户的心理、性格和习惯应该有很大的影响比例。
再深入一点,由于只能输入140字,用户必须在有限的空间内表达出自己的态度,用户会不会在大多数的评论中出现词汇簇的共线?如果能找到用户评论的词汇共线链,我觉得这就能对用户的性格和心理做出一定的分析。因为文本不同于表达,表达往往反映一个人的性格,而文本却能反映出一个人的心理动态,其实往往心理动态才能决定人的行为。话题再回到微博。微博中是有标签的,因为标签的存在,导致微博主体中会大量的缺失主语和宾语,比如:“#汽油涨价#我很想说脏话”;或者“#明星整容#丢脸!”第一句就缺失了第二宾语,而第二句中缺失了主语。在对微博做情感分析的时候,标签的比重是具有导向性的,我觉得这是一个比较不错的课题。