说起现在计算机领域最火的方向,那要数机器学习了,恐怕每个计算机人都想学习甚至掌握这门理论技术。
对于我来说,不算一点也不了解,也不算入门,只能算是一个资深的初学者。从研究生期间第一次接触机器学习概念,到现在已经五六年了,中间断断续续了解过一些相关知识,下面梳理回忆一下之前曾经了解过的相关知识,作一总结。
研究生期间的研究方向是天线选择,简单的说就是选择性能好的天线使用。在查阅资料的过程中发现,就算不局限在天线选择这一研究方向,“选择”本身就是非常值得研究的,于是知道了第一个与机器学习相关的名词【特征选择】:特征选择是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。----来自百度百科,对于当时的我来说,天线选择非常契合这一概念,降低数据集维度就对应选择,最有效特征就对应性能好,选择之后当然要满足某些系统指标最优化,比如信道容量最大或者能效最小。
我又接着查找与降维相关的算法,第二个名词【主成分分析】:主成分分析是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。----来自百度百科,由于是重新生成了新的一组变量,而对于我的研究方向天线选择来说,不可能重新生成一组新天线,所以就没有继续深入下去。
天线选择实际就是对天线进行分组,一组性能好,一组性能不好,选择其中性能好的一组。根据这一思路查到第三个名词【聚类】:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。----来自百度百科。聚类算法有好多种,我当时选了其中的K-MEANS算法,还在matlab进行了仿真,不知道是不是我打开的方式不对,还是算法本身并不适合,效果并不理想,也就作罢。
虽然查阅这些并没有对我的论文产生直接的成果,但是在查阅过程中了解了思路和多种算法,还知道了一些矩阵运算对于降低数据维度是有帮助的,比如SVD分解,LU分解,这两个论文里面还是有用到的。
在这期间还在coursera上学习了在线课程《用Python玩转数据》,内容是数据分析和可视化,是南京大学一个老师讲的,依稀记得老师很风趣,一位外号大壮的女老师。学的时候还跟着敲代码做测试,后面乃至也就都忘干净了。
工作之后,买过两本与机器学习相关的书,一本大名鼎鼎的西瓜书,看了一部分,越看到后面数学公式越多,就没动力看下去了。一本是Python机器学习实践指南,名字很好,不过书里面是外国金融相关的例子,并且很老,也就看了个大概。
流水账写完了,内容主要来自当年准备论文时查阅的资料和网页书签,虽然不多,写的过程还是回忆起了不少东西,希望对后面的学习能够有所帮助。