• 机器学习-Logistic function(Sigmoid function)


    下面给出H函数 

    由这个函数生成的曲线称为Sigmoid曲线

    先不从数学上说为什么这个模型中二元分类上比线性模型好,单纯从图形上看就可以得到直观的结论 
    首先Y值域在[0,1],其次图形中中间陡峭而两边平缓,符合二元分类的样本点特性

    确定了模型,下面要做的是fit最优的θ,仍然是采用最大似然法,即找出对训练数据可能性最大的那个θ

    前面对于线性回归问题,符合高斯分布(连续回归问题往往符合高斯分布),最终我们由最大似然推导出最小二乘回归 
    但是对于二元分类,符合伯努利分布(the Bernoulli distribution, 又称两点分布,0-1分布),因为二元分类的输出一定是0或1,典型的伯努利实验 
    by the way,二项分布是n次独立的伯努利实验形成的概率分布,当n=1时,就是伯努利分布 
    同样,如果离散输出是多个值,就是符合多项分布 

    看看由最大似然可以推导出什么 
    首先给出伯努利分布 

    是否好理解,给定x;θ,y=1的概率等于h的值,看看图中,当然是h的值越大越可能为1,越小越可能为0 
    那么这个式子可以合并写成,比较tricky的写法,Y为0或1,总有一项为1 
    那么θ的似然函数定义为,θ的可能性取决于模型对训练集拟合的好坏 

    同样为了数学计算方便,定义log likelihood, 

    很显然,对于伯努利分布,这里无法推导出最小二乘
    下面要做的是找到θ使得ℓ(θ)最大,由于这里是找最大值而非最小值,所以使用梯度上升(gradient ascent),道理是一样的 
    首先计算梯度,计算过程参考原文 

    所以最终随机梯度上升rule写成, 
    这个梯度公式,奇迹般的和线性回归中的梯度公式表面上看是一样的,可以仔细比较一样的 
    之所以说表面上,是因为其中的是不同的,这里是logitics函数。

    Perceptron Learning Algorithm(感知机算法)

    这里谈感知机,好像有些离题,但是你看下感知机的函数 

    单纯从直观图形的角度,似乎是逻辑函数的简化形式 
    逻辑函数是连续的在[0,1]区间上,而感知机直接非0则1,参考下图红线 

    同样使用梯度下降的感知机算法也是和上面相同的形式 

    同样不同的仅仅是h(x) 
    1960s,感知机被看作是大脑工作中独立神经元的粗糙的模型,由于简单,会用作后面介绍的学习算法的起点 
    虽然直观看上去感知机和之前看到的logistic回归或最小二乘回归很像,但是其实是非常不一样的算法 
    因为,对于感知机,很难赋予一种有意义的概率解释(probabilistic interpretations),或使用最大似然估计算法来推导感知机算法 
    而对于最小二乘或logistic都可以给出像高斯分布或伯努利分布的概率解释,并可以使用最大似然进行推导


  • 相关阅读:
    通过AEC解读WF的核心原理(三)Execute方法Activity的入口
    LINQ解 爱因斯坦迷题
    通过AEC解读WF的核心原理(一)Activity的副本
    动态表单
    通过AEC解读WF的核心原理(九)实现IEventActivity
    WF3.5 的SendActivity、ReceiveActivity与WorkflowServiceHost(1)
    通过AEC解读WF的核心原理(六)创建复本ForEach循环
    WF的异常捕获与资源补偿
    WF资料打包下载
    NET下的流程图开发包介绍
  • 原文地址:https://www.cnblogs.com/sirius-swu/p/6941805.html
Copyright © 2020-2023  润新知