特征抽取算是自然语言处理领域一个比较重要的概念了,近期由于需要又要重新回顾下这方面的知识,顺便也总结下所有的方法。
特征抽取就是找出一些词来代表文本,主题上既能表达文本所要传递的内容,形式上又要精炼精简。那什么样的词才能代表这篇文本呢?很自然的我们就会想到经常出现的词即词频很高的词。这样又带来一个问题:一个词在这个文本里面经常出现,那这个词肯定和这个文本的关系很紧密,但是这能不能说明这个词就可以代表这篇文本区别标识与其他文本呢?很明显,这不是一个充要条件,这又牵扯出一个概念:停用词。什么叫做停用词呢?这是检索方面的术语,表示的是一些不能传递很多信息但是却又比较经常出现的词语,一般情况下起到的都是衔接句子的作用,最常用的停用词就是“的”,这个词经常出现在各类文本中,但是却不能代表任何一类文本,而且它们的存在不仅会浪费存储空间,而且还能干扰文本的处理,因此,特征抽取的时候都会在预处理阶段把此类词过滤掉。
去掉停用词以后,我们就可以用一些常用的方法进行特征抽取了。
一、 DF(Document frequency)即文档频率
指训练集中包含该特征的文本总数。所谓文本包含特征是指这个特征在该文本中出现,忽略其在文本中的出现次数。DF方法提取DF值较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留出现达到一定次数,具有一定影响力的特征,在各个特征抽取方法中DF方法的计算是最简单的。
二、IG(Information Gain)即信息增益
信息增益是一种基于熵的评估方法。它根据训练数据,计算出各个特征词的信息增益,按照信息增益从大到小排序,筛选出较大的值。
哦,差点忘了一些前提介绍,将词和类别联系起来,训练集所能提供数据的四个数值。
分别是:类别T中含有这个词的文档的个数(A),除了类别T其他所有类别中含有这个词的文档的个数(B),类别T中不含有这个词的文档的个数(C),除了类别T其他所有类别中不含有这个词的文档的个数(D)。
示意图
三、MI(Mutual Information)互信息
此方法效果貌似不是很好,抽取出来的通用型词比较多。
四、CHI卡方
因为每个词在每个类别下都会对应这个一个数值,比较的也是相对大小,对于同一个类别,不变的常数为N,(A+C),(B+D),故,该公式可以简化为以下形式:
该方法计算效果比较理想,且计算量不是很大,一般情况下,建议用此方法。