作者 finallyliuyu,转载请注明出处
前言:
研究生时期的最后一门作业是《统计机器学习》的阅读报告。为了让作业熠熠生辉,也同时是加深对某些混淆知识的理解,预计报告中包括以下几部分内容
1. 统计机器学习机的基本框架图
2.线性SVM的基本原理(主体部分)
包括如何转化成数学上的凸优化问题,转化成对偶问题。(此部分已经完成,数学推导没有看懂,只知道个流程。如果要想看懂此部分的数学推导,需要有泛函和凸优化理论的基础)
3.实验部分:
用libsvm进行文本分类。
1.在训练样本集不变的前提下,不断加大测试样本集的规模。测试 svm模型的VC维,即能够正确分类的文章的最大数目。在实验中具体实现为,当测试样本集规模达到何种程度时分类准确率《50%
2.在训练样本集合测试样本集均不变的前提下,调解特征维数,并且观察特征维数对分类准确率的影响
由于第一次使用libsvm,所以将基本命令写在下面
测试数据见lib svm 测试数据,可提供下载。访问libsvm官方网址,可以下载到很多UCI的数据库,本博文中给出的测试数据并非来自于UCI,而是将搜狗开放新闻分类语料库中的“C000013(健康类),C000024(军事)”经过处理,形成的libSVM要求的数据格式。文本预处理阶段(包括分词,提取特征词,建立文档向量模型,费了好大的牛劲哈。train.libsvm 中共202行数据,前101行数据是C000024(0.txt-100.txt)的VSM模型,后101行数据是对C000013(0.txt-100.txt)的VSM模型。test.libsvm共200篇文章,前100行数据是C000024(101.txt-200.txt)的VSM模型,后100行数据是对C000013(101.txt-200.txt)的VSM模型。文件可以通过Ultraedit查看
4。 对数回归分类,感知机分类
对数回归,感知机分类,和SVM分类一样,都属于判别式分类器。这一对比模块的主要目的在于区别这三种模型,上学期弄对数回归分类的时候,对对数回归分类,感知机分类搞的就不太清楚,希望通过这次能够搞清楚
5。不同的分类特征词选择方法对特征词选择的影响
此部分主要实现Yiming Yang 1999年的论文 a Comparative Study on Feature Selection in Text Categorization,研究文本分类问题中的特征词选择方法,是为了启发文本聚类问题中的特征词选择方法。目前文本分类问题中的特征词选择方法已经趋于成熟如IG,MI,CHI,DF,TF权证,TF-IDF等等。可是聚类问题中的特征词选择方法尚未成熟,有发展空间。上学期我倒是想到了一种针对文本聚类问题的特征词选择方法,可是效果不好。