• 七,专著研读(Logistic回归)


    七,专著研读(Logistic回归)

    • 分类:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法。

    • 运用

      • k-近邻算法,使用距离计算来实现分类
      • 决策树,构建直观的树来分类
      • 朴素贝叶斯,使用概率论构建分类器
      • Logistic回归,主要是通过寻找最优参数来正确分类原始数据
    • 逻辑回归(Logistic Regression):虽然名字中有“回归”两个字,但是它擅长处理分类问题。LR分类器适用于各项广义上的分类任务,例如:评论信息的正负情感分析,用户点击率,用户违约信息预测,垃圾邮件检测疾病预测,用户等级分类(二分类)

    • 逻辑回归和线性回归本质都是得到一条直线,不同的是线性回归的直线是尽可能去拟合输入变量x的分布,使得训练集中所有样本点到直线的距离最短;而逻辑回归的直线尽可能去拟合决策边界,使得训练集中的样本点尽可能的分开。两者目的不同。

    • 二分类情况下:单位阶跃函数(海威赛德阶跃函数)。sigmoid函数较为容易处理。

      • sigmoid函数公式

        $ f(x)=frac{1}{1+e^{-x}}$

    • 逻辑回归:通过将线性模型和sigmoid函数结合,可以得到逻辑回归公式:

      $ y=frac{1}{1+e^{-(omega x+b)}}( <br>y就是(0,1)的取值。<br>进行变换(左右乘log),可得<br> ) logfrac{y}{1-y}=omega x+b$

      这是一个对数几率的公式。

    • 二项Logistic回归

      (P(y=0|x)=frac{1}{1+e^{omega x}})


      $ P(y=1|x)=frac{e^{omega x}}{1+e^{omega x}}$

    • 多项Logistic回归

      (P(y=k|x)=frac{e^{omega x}}{1+sum_{k-1}^{K-1}e^{omega _{k} x}})


      $ P(y=K|x)=frac{1}{1+sum_{k-1}^{K-1}e^{omega _{k} x}}$

    • LR与线性回归的区别

      • 逻辑回归和线性回归是两类模型,逻辑回归是分类模型,线性回归是回归模型
    • LR损失函数:使用损失函数预测模型的好坏,衡量真实值和预测值之间差距的函数,损失函数越小,模型就越好,最小损失0。

      $ -log(x),y=1( <br> )-log(1-x),y=0$

    • 把上边两个损失函数综合起来:

      (-[ylog(x)+(1-ylog(1-x)])

      y是标签,分别取0,1。对于m个样本,总的损失函数为:

      (J(Theta )=-frac{1}{m}sum_{i=1}^{m}[y_{i}log(p(x_{i})+(1-y_{i})log(1-p(x_{i}))])

      这个式子中,m是样本数,y是标签,取值0或1,i表示第i个样本,p(x)表示预测的输出。

    • 当损失过于小的时候,模型能拟合绝大部分的数据,这时候容易出现过拟合。防止过拟合引入正则化。

    • 梯度下降:在最小化损失函数时,可以通过梯度下降法迭代求解,得到最小化的损失函数和模型参数值。

    • 梯度下降的种类

      • 批量梯度下降算法BGD
      • 随机梯度下降算法SGD
  • 相关阅读:
    去除文件中的空行
    数据分析 numpy matplotlib
    程序员
    c#
    java
    微信小游戏
    小游戏开发手册
    模板
    微信小程序小程序代码构成(.json .js .wxss .wxml)
    微信程序
  • 原文地址:https://www.cnblogs.com/zaw-315/p/11257719.html
Copyright © 2020-2023  润新知