对一些基本概念的理解(个人)
-
区分回归和分类
回归就是对某一特性的随机判断,而分类就是 0 和 1
-
区分监督学习 和 无监督学习
监督学习就是在一个已经打好标签的数据集上进行测试
而无监督学习,也分为 聚类算法 和 鸡尾酒宴会算法,是对没有标签的数据集上进行一些预判测试,如对环境音乐 和 人声叠加音的分割等等 -
机器学习中的 E T P
E即:经验,基于过去的经验或数据集
T即:任务,你拿这些数据是来干什么的
P即:预测结果
ps. 测试题做了三次才得过
Parameters and Cost Function
损失函数
[J(θ_0, θ_1) = frac{1}{2m}(h_θ(x^{(i)}) - y^{(i)})^2
]
其中
-
h(θ) 为 预测函数,y 即 真实值
-
m 即 样例数
梯度下降(Gradient descent)
直白点说,就是寻找 损失函数的最小值的过程,不断的减小 偏导数的斜率,期间有超参数 α
[θ_0 = θ_0 - α * frac{sigma J(θ_0, θ_1)}{sigmaθ_0}
$$]
θ_1 = θ_1 - α * frac{sigma J(θ_0, θ_1)}{sigmaθ_1}
[
然后上面两个公式,嵌套一层循环,直至 $frac{sigma J(θ_0, θ_1)}{sigmaθ_1}= 0$ ,即得到了局部最优解,或全局最优解
repeat until convergence{
$θ_0 := θ_0 - α * frac{1}{m}(h_{θ}(x^{(i)}) - y^{(i)})$
$θ_1:=θ_1-α*frac{1}{m}(h_θ(x^{(i)}) - y{(i)})* x^{(i)}$
}
> update 不断
##### "Batch" Gradient Descent
"Batch": Each step of gradient descent uses all the training examples
$sum_{i=1}^m(h_{θ}(x^{(i)}) - y^{(i)})$
####
#### Linear Algebra Review
> 一些规则
1. 一般大写字母代表 矩阵, 一些小写字母表示向量
2. 向量采用 1-indexed 开头]