原文:http://blog.xlvector.net/2014-02/different-logistic-regression/
最近几年广告系统成为很多公司的重要系统之一,定向广告技术是广告系统中的重要技术,点击率预估是定向广告技术中的重要组成部分,Logistic Regression是解决点击率预估最常用的机器学习算法。所以本文介绍一下Logistic Regression(下文简称LR)。
解决的问题
LR主要用来解决两类分类问题。下面的问题是一些典型的两类分类问题:
- 用户看到一个广告后会点还是不会点
- 一个人是男还是女
- 一张图片中的图像是不是人脸
- 一个人借钱后会不会还
两类分类问题是机器学习的基本问题,所有的分类算法至少都可以解决两类分类问题, 比如:
- 决策树,随机森林,GBDT
- SVM, Vector Machine
- Gauss Process
- 神经网络
那为什么点击率预估问题选择LR呢,主要是因为:
- 数据规模很大,而LR无论是训练还是预测的计算复杂度很低
- 特征很多,对特征做了线性变换,因此问题基本是线性的,线性分类器就可以解决
- LR不仅可以预测一个样本属于那一类,而且可以给出属于每一类的概率
- LR的模型简单,从而解释预测结果也相对容易
- LR的模型简单,从而并行化相对容易
不同类型的LR
自从LR提出之后,学术界对它的改进主要基于两个方面:
- 用什么样的正则化,早期是L2正则化,而最近用的比较多的是L1正则化
- 用什么样的优化算法,如何在最短的时间内收敛到最优的解
正则化
正则化是机器学习中的一个重要技术,它的主要目的是让防止一个模型过拟合。目前比较常用的正则化有L1,和L2:
- L2正则化认为特征的权重的先验分布是一个0附近的高斯分布
- L1正则化认为特征的权重的先验分布是一个0附近的拉普拉斯分布
L1正则化相对与L2正则化有一个优点,就是加入L1正则化的损失函数在优化后,绝大多数特征的权重都是0。这个特性可以大大减少在线预估时的内存占用,并提高预测的速度,这是因为
- 在线预估的主要计算样本的特征向量x和模型的特征权重向量w的点乘
- w向量一般需要用HashMap存储,而一个特征的权重为0,就不需要存储了,因为HashMap中不存在的特征就是权重为0
- 所以L1正则化可以减少w的内存占用,而w减小后,计算w和x的点乘的速度也能提高
优化方法
L2正则化的LR的损失函数是一个可以求导的凸函数,从而可以用最速下降法(梯度法)进行优化。一般梯度法有3种
- Batch
- Mini batch
- SGD (随机梯度法)
这3种方法是最早提出的优化方法。可以用梯度法,自然也可以用牛顿法来获得超线性收敛的特性,于是共轭梯度法和LBFGS也被用来优化LR。LBFGS是基于L2正则化的,如果基于L1正则化,微软提出了OWLQN算法(http://blog.csdn.net/qm1004/article/details/18083637)。
无论是梯度法还是拟牛顿法,它们都是频率学派的优化双方。它们其实是极大似然估计用了不同的优化算法。于是,贝叶斯学派也提出了Bayesian的优化算法
- Ad Predictor : 这是微软的研究员提出的一种算法, 论文可以参考 Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine。
Ad Predictor有几个比较好的特性
- 它只需要扫瞄一次数据集就可以收敛到最优解,而不是像梯度法或者拟牛顿法那样需要反复迭代数据集。
- 它不仅仅能预测出一个样本是正样本的概率,而且还可以给出对于这个概率预测值的置信度
Ad Predictor很好了,不过它是基于L2正则化的,这样总是让人不能满意。Google在2013年发表了一篇论文(Ad Click Prediction: a View from the Trenches),介绍了一个基于L1正则化的LR优化算法FTRL-Proximal,且又具有上述Ad Predictor的两个优点。
并行化
算法的并行化有两种
- 无损的并行化:算法天然可以并行,并行只是提高了计算的速度和解决问题的规模,但和正常执行的结果是一样的。
- 有损的并行化:算法本身不是天然并行的,需要对算法做一些近似来实现并行化,这样并行化之后的双方和正常执行的结果并不一致,但是相似的。
在前面提到的算法中,基于Batch的算法(Batch-GD, LBFGS, OWLQN)都是可以进行无损的并行化的。而基于SGD的算法(Ad Predictor, FTRL-Proximal)都只能进行有损的并行化。