Finding Deceptive Opinion Spam by Any Stretch of the Imagination (11 ACL)

Finding Deceptive Opinion Spam by Any Stretch of the Imagination (11 ACL)

论文 Finding Deceptive Opinion Spam by Any Stretch of the Imagination(11 ACL)

文章研究虚假的spam，第一个贡献就是标注了标准的虚假评论和真实评论各400篇，组成了800篇的gold-standard数据。数据的构造过程使用了AMT(Amazon Mechanical Turk)，很严谨，很靠谱！

作者是将spam识别看成一个二元分类问题，分别尝试了3种方法，并尝试了3种方法的融合（这个是第二个贡献）。

第1种方法是通过文本的风格识别(Genre identification)，特征是使用POS的频率；

第2种方法是进行心理学的欺骗检测，使用的LIWC2007工具，这个工具实际是依靠关键词（keywords）的，将4500个关键词映射到80个维度上，作者最终也将这个融合到了SVM中；

第3种方法是基本的文本分类方法，可以尝试Unigram和+Bigram和+Trigram。

最终的实验结果表明，单独使用一种方法，是单纯的文本分类Unigram + Bigram(SVM)最佳；全文最佳的实验效果是使用LIWC + Unigram + Bigram(SVM)效果最佳，Accuracy达到了89.9%。

总体来说感觉作者做实验特别严谨，实验数据的构造不用说，非常牛！在做5-fold实验过程中，训练和测试的数据分别是针对不同的hotel，真的让人特别信服！值得学习~
相关阅读:
python appium环境搭建
 github 删除某个文件
 python 导入的模块使用了相对路径，导致找不到文件错误
 python asyncio协程
 python 获取调用函数的名字和行号
 monkey测试命令
 python 属性查询顺序，数据描述符
 JS各循环的差别
 AngularJS复习小结
 那些不正经的前端笔试题
原文地址：https://www.cnblogs.com/darry/p/2334288.html