机器学习 | 吴恩达斯坦福课程笔记整理之（一）线性回归

机器学习 | 吴恩达斯坦福课程笔记整理之（一）线性回归
本系列为吴恩达斯坦福CS229机器学习课程笔记整理，以下为笔记目录：

　　（一）线性回归

　　（二）逻辑回归

　　（三）神经网络

　　（四）算法分析与优化

　　（五）支持向量机

　　（六）K-Means

　　（七）特征降维

　　（八）异常检测

　　（九）推荐系统

　　（十）大规模机器学习

第一章线性回归

一、ML引言
- 学习行为，定制服务
- 监督学习和非监督学习
- 了解应用学习算法的实用建议
1.3 监督学习
- 基本思想：数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测。
- 连续变量-回归，离散变量-分类；
1.4 非监督学习
- 无标签
- 聚类算法
- 从数据中找到某种结构
二、回归问题
- 步骤：积累知识（training set）-> 学习（learning algorithm）->预测（对应关系）
三、线性回归与梯度下降
- 预测
特征，特征向量，输出向量，假设hypothesis（预测函数）

而称为回归方程，θ 为回归系数
- 误差评估
评估各个真实值 y(i) 与预测值 hθ(x(i)) 之间的差异 -> 最小均方（Least Mean Square）

也称为代价函数（Cost function）
- 批量梯度下降BGD
学习效果不好时，纠正学习策略

目标：反复调节 θ 使得预测 J(θ) 足够小 -> 梯度下降（Gradient Descent）

沿着梯度方向，接近最小值。

对于一个样本容量为 m 的训练集，我们定义 θ 的调优过程为：重复直到收敛（Repeat until convergence），该过程为基于最小均方（LMS）的批量梯度下降法（Batch Gradient Descent）

但是每调节一个θj ，都要历一遍样本集，如果样本的体积m很大，开销巨大
- 随机梯度下降（Stochastic Gradient Descent, SGD）：样本量巨大时，迅速获得最优解
四、正规方程

为求得 J(θ) 的最小值，通过正规方程来最小化 J(θ) ：

摆脱了学习率的束缚，但只适合于低维向量



五、特征缩放

将各个特征量化到统一的区间，两种量化方式：

1）Standardization

又称为 Z-score normalization，量化后的特征将服从标准正态分布：

其中, μ, δ 分别为对应特征 xi 的均值和标准差。量化后的特征将分布在 [−1,1] 区间。

2）Min-Max Scaling

又称为 normalization



量化后的特征将分布在 [0,1] 区间。

六、多项式回归

方程中添加高阶项，提高拟合效果

七、欠拟合和过拟合
- 欠拟合（underfitting）：拟合程度不高，数据距离拟合曲线较远。
- 过拟合（overfitting）：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律。
为了解决欠拟合和过拟合问题，引入了局部加权线性回归（Locally Weight Regression）。

在 LWR 中，我们对一个输入 x 进行预测时，赋予了 x 周围点不同的权值，距离 x 越近，权重越高。整个学习过程中误差将会取决于 x 周围的误差，而不是整体的误差，这也就是局部一词的由来。

通常， w(i) 服从高斯分布，在 x 周围呈指数型衰减：

其中， τ 值越小，则靠近

参考：https://yoyoyohamapi.gitbooks.io/mit-ml/content/
相关阅读:
近期学习情况
 java连接数据库的两种方法总结
 近两个星期学习成果
 云笔记第一阶段总结
 圆面积
 C++计算器项目的初始部分
 C++视频课程
 A+B Format
大一下学期的自我目标
 Kohana的请求流
原文地址：https://www.cnblogs.com/geo-will/p/10306685.html

机器学习 | 吴恩达斯坦福课程笔记整理之（一）线性回归

第一章 线性回归

一、ML引言

二、回归问题

三、线性回归与梯度下降

四、正规方程

五、特征缩放

六、多项式回归

七、欠拟合和过拟合

第一章线性回归