-
构造分类器的主要步骤:
一,数据的划分:训练数据和测试数据
- 保持的方法:三分之二的数据做训练集,另外三分之一的数据做测试集。在测试集上的分类精度作为最终的分类精度
- k折交叉验证方法:将数据集随机分成大致相当的k份,s1,s2,s3,s4…….sk,训练和测试重复进行k次。在第i次的测试中ki做为测试集,其它的作为训练集,最终分类器的分类精度取k次测试分类精度的平均值,这种方法适用于原始数据量较小的情况,这时候不适合直接应用保持的方法。
二,构造分类器算法对训练集进行学习,得到一个分类模型,最终它可以是分类规则,决策树或数学公式等形式、
三,使用分类模型对测试集进行检验,如果测试的结果符合要求(分类精度,召回率)进行第四步,否则,进行第二步
四,使用得到的分类器对未知类别的数据进行分类。
五,准确度分析:一般采用召回率和精准率,一个好的分类器同时具有较高的召回率和精准率。
注意:Relevant 和Retrieved的大小不可相差太大。