机器学习之回归

机器学习之回归
- 1..一般回归：特征数小于样本数
  - 1.1局部回归:利用高斯核，提高预测精度
    
    高斯核中自定义k值取值，在对新数据预测时，值越高一般比低值预测效果好
    
    缺点：增加计算量，局部加权回归每次必须在整个数据集上运行，为了做出预测，必须保存所有的训练数据
- 2.缩减系数来“理解”数据，特点是特征数大于样本数，矩阵XtX求逆时会遇到问题
  - 2.1 岭回归：通过给XtX加上(lamda*I)，使得矩阵变为非奇异矩阵（行列式不为0），lamda为用户自定义数值。该方法不仅用于特征多余样本数，还有在估计中加入偏差，从而得到更好的估计
    
    　　引入的lambda限制了所有w之和，通过引入该惩罚项，能够减少不重要的参数，这个技术在统计学中也叫做缩减shrinkage
    
    　　需要训练，预测误差，最小化lambda值
    
    　　使用岭回归和缩减技术，需要对特征做标准化处理，具体做法是所有特征都减去各自的均值并除以方差
    
    　　lambda应以指数级变化，以看出其在非常小和非常大的值的时对结果造成的影响
  - 2.2 lasso回归
    
    约束公式：所有系数绝对值的平方和不能大于lambda（岭回归限制条件为系数平方和小于lamba）；
    
    前向逐步回归
    
    伪代码
    
    数据标准化，使其分布满足0均值和单位方差
    
    在每轮迭代过程中：
    
    设置当前最小误差lowestError为正无穷
    
    对每个特征：
    
    增大或缩小
    
    改变一个系数得到一个新的W
    
    计算新W下的误差
    
    如果误差ERROR小于当前最小误差lowerError：设置Wbest等于当前的W
    
    将W设置为新的Wbest
    
    前向逐步回归优点：
    
    　　可以帮助人们理解现有的模型并作出改进。当构建了一个模型后，可以运行该算法找出重要的特征，这样就有可能及时停止对那些不重要特征的收集。
    
    应用缩减方法后，模型会增加偏差，与此同时却减少了模型方差，下一节对此专门讨论。（偏差：偏差又称为表观误差，是指个别测定值与测定的平均值之差，它可以用来衡量测定结果的精密度高低）
- 3.权衡偏差与方差
  - 　　
Higher you climb, more view you will see.
相关阅读:
自动化测试-短信验证码处理
 使用HttpClient调用WebAPI接口，含WebAPI端示例
 C#使用HttpClient上传文件并附带其他参数
 WebClient和HttpClient, 以及webapi上传图片
 C#-微信公众平台接口-上传临时素材
 字节组数（二进制流）、Base64、图片（文件）、二进制相互之间转换
 理解并设计rest/restful风格接口
 使用RESTful风格开发
 GitHub OAuth 第三方登录示例教程
 OAuth 2.0 的四种方式
原文地址：https://www.cnblogs.com/yyfighting/p/10843482.html