• 深度学习——深层神经网络[4]


    目录

    • 神经网络的符号表示
    • 为什么用深度来表示
    • 神经网络模块构建
    • 参数和超参数

    一、神经网络的符号表示

    $L = 4$ 层数为4

    $n^{[l]}=5$ 第$l$层有5个神经元

    $n^{[0]}=n_x=3$ 输入层有3个特征值

    $a^{[l]}$第$l$层的激活函数

    $X=a^{[0]}$     $a^{[L]}=widehat{y}$输出层

    二、为什么用深度来表示

    1)大脑学习:从边缘的细节开始学习,一层层递进到大一点的范围(比如人脸识别,先从学习眼睛、鼻子再到大一点的脸的轮廓)

    2)电路理论:为了达到同样的效果,层数少的可能需要指数增长的单元数量(比如计算一个异或式子)

    三、神经网络模块构建

    前向传播

    Input $a^{[l-1]}$

    Output $a^{[l]}$, cache $z^{[l]}$

    $z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$

    $a^{[l]}=g^{[l]}(z^{[l]})$

    向量化

    $Z^{[l]}=w^{[l]}A^{[l-1]}+b^{[l]}$

    $A^{[l]}=g^{[l]}(Z^{[l]})$

    反向求导传播(第$l$层)

    Input $da^{[l]}$

    Output $da^{[l-1]}$,$dW^{[l]}$,$db^{[l]}$

    $dz^{[l]}=da^{[l]}g^{[l]'}(z^{[l]})$

    $dw^{[l]}=dz^{[l]}a^{[l-1]}$

    $db^{[l]}=dz^{[l]}$

    $da^{[l-1]}=w^{[l]T}dz^{[l]}$

    向量化,使用平均值

    $dZ^{[l]}=dA^{[l]}g^{[l]'}(Z^{[l]})$

    $dW^{[l]}=frac{1}{m}dZ^{[l]}A^{[l-1]T}$

    $db^{[l]}=frac{1}{m}dZ^{[l]}$

    $dA^{[l-1]}=W^{[l]T}dZ^{[l]}$

    四、参数VS超参数

    参数:$W^{[1]}$, $b^{[1]}$等

    超参数:学习率, 隐层数,激活函数,梯度下降的循环次数

    超参数在某种程度上控制了参数的结果值

    超参数的调整(经验性)方法:先尝试一个范围内的结果;勤检验且调整值

  • 相关阅读:
    Apache的Order Allow,Deny 详解
    apache的AllowOverride以及Options使用详解
    安装启动apache2.4后报Invalid command 'order', perhaps misspelled or defined by a module not included
    前端常见跨域解决方案(全)
    php面试宝典
    php面试题2018
    nginx负载均衡的5种策略
    多台服务器共享session问题
    小程序定义并使用类
    微信小程序真机预览接口不到数据,打开调试确能请求到
  • 原文地址:https://www.cnblogs.com/coolqiyu/p/8526073.html
Copyright © 2020-2023  润新知