一、特征选择:类内代表性、类间区别性、特征子集的最优性
1.DF频率法:选择高频词项
2.互信息MI
3.χ2 统计量
二、分类算法
1.线性方法
1.1朴素贝叶斯(假设条件独立)
1.2 Rocchio算法:质心法,效果一般不如NBC
基本思想:中心向量是所有文档向量的算术平均,将每篇测试文档分到离它最近的那个中心向量。
1.3 SVM支撑向量机:软间隔线性分类器
2.非线性方法:KNN最近邻
三、分类评价
1.P值:该类中正确的结果所占该类总结果的比重
P=CT/(CT+CN)
2.R值:该类中正确的结果占所有类正确结果的比重
R=CT(CT+~CT)
3.F值:调和平均值
F=1/(0.5*(1/P+1/R))
4.Accurary值:
Accuracy = (RR+NN)/(RN + RR + NR + NN)