七,专著研读(Logistic回归)
-
分类:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法。
-
运用
- k-近邻算法,使用距离计算来实现分类
- 决策树,构建直观的树来分类
- 朴素贝叶斯,使用概率论构建分类器
- Logistic回归,主要是通过寻找最优参数来正确分类原始数据
-
逻辑回归(Logistic Regression):虽然名字中有“回归”两个字,但是它擅长处理分类问题。LR分类器适用于各项广义上的分类任务,例如:评论信息的正负情感分析,用户点击率,用户违约信息预测,垃圾邮件检测疾病预测,用户等级分类(二分类)。
-
逻辑回归和线性回归本质都是得到一条直线,不同的是线性回归的直线是尽可能去拟合输入变量x的分布,使得训练集中所有样本点到直线的距离最短;而逻辑回归的直线尽可能去拟合决策边界,使得训练集中的样本点尽可能的分开。两者目的不同。
-
二分类情况下:单位阶跃函数(海威赛德阶跃函数)。sigmoid函数较为容易处理。
- sigmoid函数公式
$ f(x)=frac{1}{1+e^{-x}}$
- sigmoid函数公式
-
逻辑回归:通过将线性模型和sigmoid函数结合,可以得到逻辑回归公式:
$ y=frac{1}{1+e^{-(omega x+b)}}( <br>y就是(0,1)的取值。<br>进行变换(左右乘log),可得<br> ) logfrac{y}{1-y}=omega x+b$
这是一个对数几率的公式。 -
二项Logistic回归
(P(y=0|x)=frac{1}{1+e^{omega x}})
$ P(y=1|x)=frac{e^{omega x}}{1+e^{omega x}}$
-
多项Logistic回归
(P(y=k|x)=frac{e^{omega x}}{1+sum_{k-1}^{K-1}e^{omega _{k} x}})
$ P(y=K|x)=frac{1}{1+sum_{k-1}^{K-1}e^{omega _{k} x}}$
-
LR与线性回归的区别
- 逻辑回归和线性回归是两类模型,逻辑回归是分类模型,线性回归是回归模型。
-
LR损失函数:使用损失函数预测模型的好坏,衡量真实值和预测值之间差距的函数,损失函数越小,模型就越好,最小损失0。
$ -log(x),y=1( <br> )-log(1-x),y=0$
-
把上边两个损失函数综合起来:
(-[ylog(x)+(1-ylog(1-x)])
y是标签,分别取0,1。对于m个样本,总的损失函数为:
(J(Theta )=-frac{1}{m}sum_{i=1}^{m}[y_{i}log(p(x_{i})+(1-y_{i})log(1-p(x_{i}))])
这个式子中,m是样本数,y是标签,取值0或1,i表示第i个样本,p(x)表示预测的输出。 -
当损失过于小的时候,模型能拟合绝大部分的数据,这时候容易出现过拟合。防止过拟合引入正则化。
-
梯度下降:在最小化损失函数时,可以通过梯度下降法迭代求解,得到最小化的损失函数和模型参数值。
-
梯度下降的种类
- 批量梯度下降算法BGD
- 随机梯度下降算法SGD