Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归

Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归

本系列文章允许转载，转载请保留全文！

【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 泊松回归 (Poisson Regression)

在生活中，经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模，例如癌症、火灾等。

假设向量x表示引起这一事件发生的因素，向量θ表示因素的权重，则使用h_θ(x)=exp(θ^Tx)表示事件发生次数的期望。θ^Tx位于指数位置，意味着其每增加1个单位，将导至事件发生次数的期望值翻倍。

此时，因变量与自变量近似满足泊松分布，即：y⁽ⁱ⁾~π(h_θ(x⁽ⁱ⁾))。

下面求参数θ的极大似然估计。似然函数：

$L(y|x; heta)=prod_{i=1}^{m}P(y^{(i)}|x^{(i)}; heta)=prod_{i=1}^{m}frac{e^{-h_ heta(x^{(i)})}h_ heta(x^{(i)})^{y^{(i)}}}{y^{(i)}!}$

对数似然函数：

$ln L(y|x; heta)=sum_{i=1}^{m}(-h_ heta(x^{(i)})} + y^{(i)}ln (h_ heta(x^{(i)})) - ln(y^{(i)}!))$

定义损失函数：

$J( heta)=-frac{1}{m}sum_{i=1}^{m}(-h_ heta(x^{(i)}) + y^{(i)}ln (h_ heta(x^{(i)})) )$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$frac{partial}{partial heta_j}J( heta)=-frac{1}{m}sum_{i=1}^{m}(-h_ heta(x^{(i)})x^{(i)}_j + y^{(i)}frac{1}{h_ heta(x^{(i)})}h_ heta(x^{(i)})x^{(i)}_j) quad for j=0ldots n$

化简，有：

$frac{partial}{partial heta_j} J( heta) = frac{1}{m}sum_{i=1}^m (h_ heta(x^{(i)})-y^{(i)})x_j^{(i)} quad for\ j=0ldots n$

最后，使用梯度下降法迭代求解：

$heta^{(k+1)}_j= heta^{(k)}_j-alpha frac{partial}{partial heta_j} J( heta) quad for\ j=0ldots n$

其中， $alpha$ 为学习率。

2. Softmax回归 (Softmax Regression)

利用之前介绍的逻辑回归模型，我们已经可以解决二分类问题。下面，我们将二分类问题推广为k分类问题。

在逻辑回归中，因变量y∈{0,1}，分别对应两个分类；而在Softmax回归模型中，因变量y∈{1,2,...,k}，分别对应k个分类。Softmax回归假定因变量服从参数为Φ₁,...,Φ_k的多项分布，即y(i)~Mult(Φ₁,...,Φ_k)。其中：

$phi_i=frac{exp( heta_i^Tx)}{1+sum_{l=1}^{k-1}exp( heta_l^Tx)}quad for i=1ldots k-1$

参数Φ_k是冗余的，利用概率之和等于1的条件，可以得到：

$phi_k=1-sum_{i=1}^{k-1}phi_i=frac{1}{1+sum_{l=1}^{k-1}exp( heta_l^Tx)}$

同时定义：

$h_ heta(x)=egin{bmatrix}phi_1 & ldots & phi_{k-1} end{bmatrix}^T$

$heta=egin{bmatrix} heta_1 & ldots & heta_{k-1} end{bmatrix}^T$

$heta_i=egin{bmatrix} heta_{i0} & ldots & heta_{in} end{bmatrix}^T quad for i=1ldots k-1$

容易证明，Φ具有如下性质：

$frac{partiallnphi_i}{partial heta_{pq}}=(1-phi_p)x_qquad (i=p)$

$frac{partiallnphi_i}{partial heta_{pq}}=-phi_px_qquad (i eq p)$

$for i=1ldots k$

尤其需要注意的是，上述性质对i=k的情况仍然成立，尽管推导过程并不相同。后续证明中将直接使用这些性质。

下面求参数θ的极大似然估计，似然函数：

$L(y|x; heta)=prod_{t=1}^{m}P(y^{(t)}|x^{(t)}; heta)=prod_{t=1}^{m}prod_{i=1}^{k}phi_i^{ extbf{1}{y^{(t)}=i }}$

其中，函数1{expression}定义如下：当expression为真时，函数值为1；否则为0。Φ的性质可以利用1{·}进一步化简。

对数似然函数：

$ln L(y|x; heta)=sum_{t=1}^{m}sum_{i=1}^{k} extbf{1}{y^{(t)}=i } ln phi_i$

定义损失函数：

$J( heta)=-frac{1}{m}sum_{t=1}^{m}sum_{i=1}^{k} extbf{1}{y^{(t)}=i } ln phi_i$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$frac{partial}{partial heta_{pq}}J( heta)=-frac{1}{m}sum_{t=1}^{m} sum_{i=1}^{k} extbf{1}{y^{(t)}=i } frac{partiallnphi_i}{partial heta_{pq}}=-frac{1}{m}sum_{t=1}^{m} frac{partiallnphi_{y^{(t)}}}{partial heta_{pq}} \ =-frac{1}{m}sum_{t=1}^{m}( extbf{1}{y^{(t)}=p }-phi_p)x_q^{(t)}=frac{1}{m}sum_{t=1}^{m}(phi_p- extbf{1}{y^{(t)}=p })x_q^{(t)}$

可以将上式进一步整理为向量形式：

$frac{partial}{partial heta_{:j}}J( heta)=frac{1}{m}sum_{i=1}^{m}left(egin{bmatrix}phi_1 \ vdots \ phi_{k-1} end{bmatrix}- egin{bmatrix} extbf{1}{y^{(i)}=1} \ vdots \ extbf{1}{y^{(i)}=k-1}end{bmatrix} ight)x_j^{(i)} \ =frac{1}{m}sum_{i=1}^{m}left(h_ heta(x^{(i)}) - egin{bmatrix} extbf{1}{y^{(i)}=1} \ vdots \ extbf{1}{y^{(i)}=k-1}end{bmatrix} ight)x_j^{(i)} quad for j=0ldots n$

最后，使用梯度下降法迭代求解：

$heta^{(k+1)}_{:j}= heta^{(k)}_{:j}-alpha frac{partial}{partial heta_{:j}} J( heta) quad for\ j=0ldots n$

至此，本系列已经探讨了四个常用的回归模型，其中的泊松回归和Softmax回归初看并不容易理解。关于h_θ(x)的来历，以及不同模型中J(θ)相似的原因，将在后续文章中作出说明。
相关阅读:
SharePoint的安装配置
 onkeypress与onkeydown及 oncopy和onpaste 事件区别详细说明
 sql Server 的基本函数
 iOS 错误之 http请求
 iOS 错误及解决汇总
 iOS 开源库之 AFNetWorking 2.x
linux 下 tomcat 之配置静态资源路径
 iOS 之 Block Variable
iOS 协议
 #import与@class的区别
原文地址：https://www.cnblogs.com/tbcaaa8/p/4486297.html