机器学习的基本方法
-
有监督学习 (supervised learning)
-
数据集中的样本带有标签,有明确目标
-
回归和分类
-
典型方法
-
回归模型:线性回归,岭回归,LASSO和回归样条
-
分类模型:逻辑回归,K近邻,决策树,支持向量机等
-
-
-
无监督学习 (unsupervised learning)
-
数据集中的样本没有标签,没有明确目标
-
聚类,降维,排序,密度估计,关联规则挖掘
-
-
强化学习 (reinforcement learning)
-
智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力
-
例如 AlphaGo
-
-
基本概念
-
数据集: 一组样本的集合
-
样本: 数据集的一行,一个样本包含一个或多个特征,此外还可能包含一个标签
-
特征:在进行预测时使用的输入变量
-
训练集:用来训练模型的数据集
-
测试集:用来测试模型的数据集
-
模型:建立数据的 x 和输出 y 之间的映射关系 (y = f(x))
-
损失函数 (L(f(x_i), y_i) = (f(x_i) - y_i)^2)
-
优化目标 (min_{fepsilon F}frac{1}{n}sum_{i=1}^nL(y_i, f(x_i)))
-