绪论:初识机器学习
定义:Arthur Samuel(1959).赋予计算机在无需对其编程的情况下能够自主学习的能力的研究。。。Tom Mitchell(1998).计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。。。
算法:主要的两类是监督式学习(教会计算机做某件事)和无监督式学习(让计算机自己学习做某件事),此外还有强化学习和推荐系统。
监督式学习(SL):给算法一组预测结果的数据集(对每一个样本,清楚告知所谓的正确答案),算法的任务就是正确找到不同输入情况下对应的预测结果。它的算法有隐马尔可夫模型,决策树,最大熵模型,支持向量机,条件随机场等。
SL的例子:回归问题,比如房价预测问题,用来预测连续的数值输出;分类问题,比如预测肺癌是良性或是恶性问题,预测一个离散值输出。
学习算法不仅能处理三到五个特征,还能处理无穷多个特征,以支持向量机算法为例,它用到了一个数学上的方法来解决这个问题。
无监督式学习(UL):给算法一组数据集(有相同标签或者没有标签),算法找到其中的某种结构,对结果进行聚类,各属于哪一个簇。算法有:主成分分析,等距映射,局部线性嵌入方法等。
UL的例子:最典型的例子就是聚类问题。。谷歌新闻,用来搜索成千上万条新闻,自动将其进行分簇,有关同一主题的新闻。
无监督学习算法或聚类算法的应用:新闻分类,管理计算机协同工作,基因组分类,社交网络分析,市场用户分割,天文数据分析等。
鸡尾酒会算法代码:
[W, s, v] = svd((repmat)(sum(x.*x, 1), size(x, 1).*x)*x')