• 逻辑回归与最大熵模型


    逻辑回归

    sigmoid函数=(sigma(x)=frac{1}{1+e^{-x}}=frac{e^{x}}{1+e^{x}})

    二项逻辑回归模型

    有如下条件概率分布,(w)内已经包含了偏置(b)

    [P(Y=1|x)=frac{exp(wcdot x)}{1+exp(wcdot x)} ]

    [P(Y=0|x)=frac{1}{1+exp(wcdot x)} ]

    对数几率:

    [ ext{logit}(p)=frac{P(Y=1|x)}{1-P(Y=1|x)}=frac{p}{1-p}=wcdot x ]

    参数估计

    设:(P(Y=1|x)=pi (x), qquad P(Y=0|x)=1-pi (x))
    似然函数为

    [prod limits_{i=1}^N[pi(x_i)]^{y_i}[1-pi(x_i)]^{1-y_i} ]

    对数似然函数为

    [egin{aligned} mathcal{L}(w) &=sum limits_{i=1}^N[y_ilog pi(x_i)+(1-y_i)log (1-pi(x_i))] \ & = sum limits_{i=1}^N[y_i(w_i cdot x_i)-log (1+exp(w cdot x_i))] end{aligned}]

    (mathcal{L})求极大值,得到(w)的估计值。对于无约束优化问题,一般使用梯度下降法或拟牛顿法(不一定存在解析解,或者难以求解)

    多项逻辑回归

    [P(Y=k|x)=frac{exp(w_kcdot x)}{1+sum limits_{k=1}^{K-1}exp(wcdot x)},quad k=1,2,cdots,K-1 ]

    [P(Y=K|x)=frac{1}{1+sum limits_{k=1}^{K-1}exp(wcdot x)} ]

    总结:每项的归一化项都相同,不同的是分子。最后一项分子为1,其他都是对应的(exp(w_k cdot x))

    最大熵模型

    最大熵原理表述为在满足约束条件的模型集合中选取熵最大的模型

    模型定义

    对于给定数据集,可以确定联合分布(P(X,Y))的经验分布和边缘分布(P(X))的经验分布,分别为:

    [ ilde{P}(X=x,Y=y)=frac{v(X=x,Y=y)}{N} ]

    [ ilde{P}(X=x)=frac{v(X=x)}{N} ]

    其中(v(cdot))表示频数

    用特征函数(f(x,y))描述输入(x)和输出(y)之间的某个事实(可以看成是特征提取,提取输入输出的共同特征),其定义为:

    [f(x,y)=egin{cases}1,quad x与y ext{满足某一事实}\ 0, quad ext{otherwise}end{cases} ]

    如果模型能够获取训练数据中的信息,那么应该满足:

    [sum limits_{x,y} ilde{P}(x)P(y|x)f(x,y)=sum limits_{x,y} ilde{P}(x,y)f(x,y) ]

    或对于特征函数的期望应满足如下条件:

    [E_P(f)=E_{ ilde{P}}(f) ]

    其中(P(Y|X))是要学习的条件概率

    假设满足所有约束条件的模型集合为

    [C equiv {Pin mathcal{P}|E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n} ]

    定义在条件概率分布(P(Y|X))上的条件熵为

    [H(P)=-sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) ]

    则模型集合(mathcal{C})中条件熵(H(P))最大的模型称为最大熵模型

    最大熵模型的学习

    可以形式化为约束最优化问题

    [egin{aligned} max limits_{Pin C} quad & H(P)= -sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) \ s.t. quad & E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n \ & sum limits_y P(y|x)=1 end{aligned}]

    逻辑回归与最大熵模型的关系

    (y in {+1,-1}),且特征函数为

    [f=egin{cases}g(x), quad & y=y_1 \ 0, quad &y=y_0 end{cases} ]

    时,最大熵模型变为逻辑回归模型

    逻辑回归优缺点

    • 优点:
      • 便利的观测样本概率分数;
      • 已有工具的高效实现;
      • 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决;
      • 逻辑回归广泛的应用于工业问题上(这一点很重要)
    • 缺点:
      • 当特征空间很大时,逻辑回归的性能不是很好;
      • 不能很好地处理大量多类特征或变量;
      • 对于非线性特征,需要进行转换;
      • 依赖于全部的数据(个人觉得这并不是一个很严重的缺点)
  • 相关阅读:
    进程与线程
    linux网关服务器
    linux硬盘分区和fdisk命令
    MyISAM与InnoDB两者之间区别与选择(转)
    系统吞吐量与QPS/TPS
    linux最大打开文件句柄数
    内存性能测试 Memtester+mbw
    硬盘性能测试
    使用JNA访问WindowsAPI操作Windows窗口元素
    [博客页面装饰]----[人体时钟]插件
  • 原文地址:https://www.cnblogs.com/weilonghu/p/11922301.html
Copyright © 2020-2023  润新知