• 机器学习之回归


    • 1..一般回归:特征数小于样本数
      • 1.1局部回归:利用高斯核,提高预测精度
        • 高斯核中自定义k值取值,在对新数据预测时,值越高一般比低值预测效果好
        • 缺点:增加计算量,局部加权回归每次必须在整个数据集上运行,为了做出预测,必须保存所有的训练数据
    • 2.缩减系数来“理解”数据,特点是特征数大于样本数,矩阵XtX求逆时会遇到问题
      • 2.1 岭回归:通过给XtX加上(lamda*I),使得矩阵变为非奇异矩阵(行列式不为0),lamda为用户自定义数值。该方法不仅用于特征多余样本数,还有在估计中加入偏差,从而得到更好的估计
        •   引入的lambda限制了所有w之和,通过引入该惩罚项,能够减少不重要的参数,这个技术在统计学中也叫做缩减shrinkage
        •   需要训练,预测误差,最小化lambda值
        •   使用岭回归和缩减技术,需要对特征做标准化处理,具体做法是所有特征都减去各自的均值并除以方差
        •   lambda应以指数级变化,以看出其在非常小和非常大的值的时对结果造成的影响
      • 2.2 lasso回归
        • 约束公式:所有系数绝对值的平方和不能大于lambda(岭回归限制条件为系数平方和小于lamba);
        • 前向逐步回归
          • 伪代码
          • 数据标准化,使其分布满足0均值和单位方差
          • 在每轮迭代过程中:
            • 设置当前最小误差lowestError为正无穷
            • 对每个特征:
              • 增大或缩小
              • 改变一个系数得到一个新的W
              • 计算新W下的误差
              • 如果误差ERROR小于当前最小误差lowerError:设置Wbest等于当前的W
              • 将W设置为新的Wbest
          • 前向逐步回归优点:
            •   可以帮助人们理解现有的模型并作出改进。当构建了一个模型后,可以运行该算法找出重要的特征,这样就有可能及时停止对那些不重要特征的收集。
            • 应用缩减方法后,模型会增加偏差,与此同时却减少了模型方差,下一节对此专门讨论。(偏差:偏差又称为表观误差,是指个别测定值与测定的平均值之差,它可以用来衡量测定结果的精密度高低)
    • 3.权衡偏差与方差
      •   
    Higher you climb, more view you will see.
  • 相关阅读:
    自动化测试-短信验证码处理
    使用HttpClient调用WebAPI接口,含WebAPI端示例
    C#使用HttpClient上传文件并附带其他参数
    WebClient和HttpClient, 以及webapi上传图片
    C#-微信公众平台接口-上传临时素材
    字节组数(二进制流)、Base64、图片(文件)、二进制相互之间转换
    理解并设计rest/restful风格接口
    使用RESTful风格开发
    GitHub OAuth 第三方登录示例教程
    OAuth 2.0 的四种方式
  • 原文地址:https://www.cnblogs.com/yyfighting/p/10843482.html
Copyright © 2020-2023  润新知