来源:1、https://www.bilibili.com/video/BV164411b7dx?from=search&seid=7881803442865549554
2、http://blog.sina.com.cn/s/blog_6cab6c470101olej.html
3、https://cloud.tencent.com/developer/article/1415188
书籍勘误表:https://blog.csdn.net/wzmsltw/article/details/52718722
自己看书做的笔记。本人属于初学,水平不高,记录内容难免有误。请各位不吝赐教,积极指正。
要是能让各位看官有所收获,嘿嘿,那在下就功德无量了(doge)
基础知识
概率分布:https://www.cnblogs.com/vamei/p/3224111.html
极大似然估计:https://zhuanlan.zhihu.com/p/26614750
https://blog.csdn.net/u011508640/article/details/72815981
先验概率和后验概率:https://blog.csdn.net/shenxiaoming77/article/details/77505549
基础简介
策略
策略:用什么样的准则学习或者选择最优的模型。
风险函数:平均意义下模型预测的好坏
常用的损失(或代价函数)函数:
由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$,称为风险函数(或期望损失)。其中,L(y,f(x))为损失函数,联合分布P(X,Y)是未知的
经验风险:模型f(X)关于训练数据集的平均损失称为经验风险(或经验损失),记经验损失为$R_{emp}$,$R_{emp}(f)=frac{1}{N}sideset{}{}{sum}_{i=1}^{N}L(y_i,f(x_i))$
tips:期望损失:$R_{exp}$
经验损失:$R_{emp}$
按照经验损失最小化求最优模型就是求解最优化问题:$sideset{}{}{min}_{finmathscr{F}}frac{1}{N}sum_{i=1}^{N}L(y_i,f(x_i))$
机构化风险最小:是为了防止过拟合而提出的策略,结构化风险最小等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term).
在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是$R_{srm}(f)=frac{1}{N}L(y_i,f(x_i))+lambda J(f)$。
tips:其中$lambda ge 0$ ,$J(f)$为模型复杂度,越大模型越复杂,即模型复杂度表示了对复杂模型的惩罚(会使结构风险增加)
算法: 算法是指学习模型的具体计算方法.统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
模型的评估与选择
训练误差:$R_{emp(hat{f})}=frac{1}{N}sum_{i=1}^NL(y_i,hat{f}(x_i))$
测试误差:$e_{test}=frac{1}{N^{'}}sum_{i=1}^{N^{'}}L(y_i,hat{f}(x_i))$
tips:其中$Y=hat{f}(X)$是学习到的模型,$N$是训练样本容量,$N^{'}$是测试样本容量
过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高(就是针对性过强了).这种现象称为过拟合(over-fitting).这种情况下,模型对训练样本效果很好,但对测试样本效果不好。
$L(w)=frac{1}{2}sum_{i=1}^{N}(sum_{j=0}^{M}w_jx_i^j-y_i)^2$
$let frac{partial{L(w)}}{w_k}=0$,则:
$frac{1}{2}sum_{i=1}^{N}2(sum_{j=0}^{M}w_jx_i^j-y_i)x_i^k=0$
$sum_{i=1}^{N}sum_{j=0}^{M}w_jx_i^{j+k}=sum_{i=1}^{N}x_ky_i$
$sum_{j=0}^{M}(sum_{i=1}^{N}x_i^{j+k})w_j=sum_{i=1}^{N}x_i^ky_i$
下面的求和符号上下限都是$i=1$到$N$,即$sum_{i=1}^{N}$, 为了方便略去不写。
$egin{bmatrix}N&sum x_i &sum x_i^2&cdots& sum x_i^M\sum x_i&sum x_i^2&sum x_i^3&cdots&sum x_i^{M+1}\sum x_i^2&sum x_i^3&sum x_i^4&cdots&sum x_i^{M+2}\vdots&vdots&vdots&ddots&cdots\sum x_i^M&sum x_i^{M+1}&sum x_i^{M+2}&cdots&sum x_i^{2M}end{bmatrix}egin{pmatrix}w_0\w_1\w_2\vdots\w_mend{pmatrix}=egin{bmatrix}sum y_i\sum x_iy_i\sum x_i^2y_i\vdots\sum x_i^My_iend{bmatrix}$
则所求的拟合多项式系数$w_0^*,w_1^*,cdots,w_M^*$就可以通过解上面的方程组得到,只需要将$sumlimits_{i=1}^{N} x_i^j(j=0,1,2,cdots,2M)$和$sumlimits_{i=1}^{N}x_i^jy_i(j=0,1,2,cdots,M)$代入其中求解即可
此处公式来源:https://blog.csdn.net/xiaolewennofollow/article/details/46757657
正则化
正则化regularization):模型选择的典型方法,它是在经验风险上加-一个正则化项(regularizer)或罚项(penalty terrn)
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大.比如正则化项可以是模型参数向量的范数.正则化的作用就是选择经验风险与模型复杂度同时小的模型。
正则化形式:$sideset{}{}{min}_{fin mathscr{F}}frac{1}{N}L(y_i,f(x_i))+lambda J(f)$,其中第一项是经验风险,第二项是正则化项目,$lambda ge 0$为调整两者之间关系的参数
奥卡姆剃刀原理:https://zhuanlan.zhihu.com/p/45321953
交叉验证
交叉验证:模型选择的另一种方法(包括简单交叉验证,S折交叉验证,留一交叉验证) https://blog.csdn.net/qq_31130535/article/details/89927914
若样本数据充足,可将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(testset).训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估.在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型.
泛化能力
泛化能力:由该方法学习到的模型对位置数据的预测能力
泛化误差:$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$(就是损失函数的期望)