特征提取
特征提取一般分为卡方检验,互信息,信息增益。一般都是通过相关性分析,进行特征提取
卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。在分类问题中是:计算两个变量之间的相关性,在对特征属性做相关处理
它在分类资料推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
详细请参考:https://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C
互信息
互信息互信息是指信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。在分类的互信息计算过程中,当互信息值越大时,表示特征与类别之间就越相关
互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。
详细请参考:https://www.cnblogs.com/gatherstars/p/6004075.html 以及https://wiki.mbalib.com/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF
信息增益
信息增益在机器学习中应用广泛,如决策树的根节点计算,它也是最常用的特征提取得方法之一。其基本思想也是计算特征和类别之间的相关性