• 吴恩达机器学习笔记(四) —— BP神经网络


    主要内容:

    一.模型简介

    二.一些变量所代表的含义

    三.代价函数

    四.Forward Propagation

    五.Back Propagation

    六.算法流程

    待解决问题:

    视频中通过指出:当特征变多时(或者非线性),利用logistic回归模型解决问题将导致计算量很大,即算法复杂度很高。然后就此引出神经网路,所以说神经网路在解决多特征(或者非线性)问题上是比logistic回归更优的。但为什么呢?有什么合理的解释?

    一.模型简介

    1.最简单的神经网络就是只有输入层和输出层:

    2.稍微复杂一点(中间的被称为隐藏层):

    3.其中,当前层的输出作为下一层每一个结点的输入(的一部分),即n*m的全相连,且每一条边都带有权重,就是说我们要训练的参数。

    4.在每一层当中,除了我们预先设定的结点之外,还在最上面添加一个结点(bias unit)作为偏移值,其值为1。

    5.hθ(x)为Logistic回归函数。

    二.一些变量所代表的含义

    为了方便描述神经网络,对一些变量进行描述(注意:此处的上标表示第几层,从1开始):

    x:最原始的输入

    a:当前层的输出,其中a1(上标) = x

    z:z = θx

    有如下关系:

    三.代价函数

    1.代价函数:

    2.向量化后:

    四.Forward Propagation

    foward propagation就是将输入x,经过一层层的神经网络,最后到达输出层,并输出结果hθ(x)。

    一张图可以很好地解释其过程:

    五.Back Propagation(求梯度)

    我们可以通过foward propagation求出输出结果hθ(x),接下来就是要减少误差的而进行参数调整了,一贯的做法是梯度下降。

    可知Logistic回归的梯度下降的表达式为:

    由于神经网络也是利用Logistic回归的sigmoid函数,那么其梯度下降的表达式也应该类似。

    可知最后一层,也就是输出层的输出结果为hθ(x),也就是预测值。那么误差就是hθ(x)-Y,对应了上式中的“(hθ(x)-Y)”,记δ=hθ(x)-Y。

    但是,我们只知道最后一层的δ,即hθ(x)-Y,而隐藏层的δ却不能够直接看出来,那应该如何呢?

    可知输出层的hθ(x),是倒数第二层通过一定的规则计算出来的;反过来,倒数第二层计算所出现的误差,也可以通过输出层hθ(x)与真实值的误差反过来求。其中最重要的就是参数θ,因为它规定着输入(或输出)在当前结点所占的比例。

    知道了Back Propagation的思想后,就需要着手具体如何求出δ了,其方法就是微积分中的“链式求导”。可知当前层的输出a(l)(可以看做一个变量),通过相关的映射(或者说函数)得出下一层的输出a(l+1)。此时把a(l+1) 看成y,a(l)看成x,而y = f(x)。我么已知y所造成的误差为δ,而y又是x的函数,所以x所造成的误差就等于:δ*f'(x)。与Logistic回归不同的是:神经网络在两层之间存在着n*m的全相连,每一条边都代表着a-->b的权重,即参数θ。在求误差δ的时候,应该乘上参数θ,如下:

    因此,一直往前递推,就可以求出各层(输入层不需要求,因为总为0)的误差δ,即“(hθ(x)-Y)”。梯度就可以求出来了,之后就轮到梯度下降大显身手了。

    求梯度的过程总结:

     

    六.算法流程:

     

     

  • 相关阅读:
    一个分油的逻辑问題C#实现
    vmware ESXI安装megacli
    搜索引擎Constellio及Google Search Appliances connectors
    MySQL 数据库性能优化之索引优化
    MySQL 数据库性能优化之缓存参数优化
    MySQL 数据库性能优化之表结构优化
    Spring中的WebAppRootListener
    MySQL 数据库性能优化之SQL优化
    8 个基于 Lucene 的开源搜索引擎推荐
    Spring 用户身份验证
  • 原文地址:https://www.cnblogs.com/DOLFAMINGO/p/9321846.html
Copyright © 2020-2023  润新知