• The Expressive Power of Neural Networks: A View from the Width


    Lu Z, Pu H, Wang F, et al. The expressive power of neural networks: a view from the width[C]. neural information processing systems, 2017: 6232-6240.

    @article{lu2017the,
    title={The expressive power of neural networks: a view from the width},
    author={Lu, Zhou and Pu, Hongming and Wang, Feicheng and Hu, Zhiqiang and Wang, Liwei},
    pages={6232--6240},
    year={2017}}

    Universal approximation theorem-wiki, 这个定理分成俩个部分, 第一个部分是Unbounded Width Case, 这篇文章是Bounded Width Case (ReLu网络).

    主要内容

    定理1

    在这里插入图片描述

    另外, 定理1中的网络由若干个(视(epsilon)而定) blocks排列而成, 每个block具有以下性质:

    • depth: 4n+1, n+4 的神经网络
    • 在一个范围外其“函数值”为0
    • 它能够存储样本信息
    • 它会加总自身的信息和前面的逼近信息

    定理2

    在这里插入图片描述

    定理3

    在这里插入图片描述

    定理4

    在这里插入图片描述

    定理1的证明

    因为主要关注定理1, 所以讲下这个部分的证明(实际上是因为其它懒得看了).

    假设(x = (x_1, x_2,ldots, x_n))为输入, (f)(L^1)可积的, 对于任意的(epsilon > 0), 存在(N > 0)满足

    [int_{cup_{i=1}^n|x_i| ge N} |f| mathrm{d}x < frac{epsilon}{2}. ]

    定义下列符号:
    在这里插入图片描述

    则我们有:

    [int_{R^n} |f-(f_1 - f_2)| mathrm{d}x < frac{epsilon}{2}, ]

    对于(i=1, 2), 既然(V_E^i)是可测的(且测度小于(+infty)), 则我们能找到有限个(n+1)维的矩体去逼近(原文用了cover, 但是我感觉这里用互不相交的矩体才合理), 并有

    [m(V_E^i Delta cup_j J_{j,i}) < frac{epsilon}{8}, ]

    不出意外(Delta)应该就是.

    假设(J_{j,i})(n_i)个, 且
    在这里插入图片描述

    每一个(J_{j, i})对应一个指示函数:

    [phi_{j,i}(x) = left { egin{array}{ll} 1 & x in X_{j,i} \ 0 & x ot in X_{j,i}. end{array} ight. ]


    在这里插入图片描述
    这个在实变函数将多重积分, 提到的下方图形集有讲到.
    于是我们有((-f_1-f_2+f_1+f_2-f+f)然后拆开来就可以得到不等式)
    在这里插入图片描述

    现在我们要做的就是通过神经网络拟合(varphi_{j,i})去逼近(phi_{j,i}), 使得
    在这里插入图片描述

    在这里插入图片描述

    现在来讲, 如果构造这个神经网络:
    在这里插入图片描述

    一个block有4n+1层, 每层的width是n+4, 注意到所有层的前n个Node都是一样的用来保存样本信息. 我们用(R_{i, j, mathscr{B_k}}, i=1, 2, 3, 4, j=1,ldots,n+4, k=1,ldots, n,) 表示第(k)个Unit(每个Unit有4层)的第(i)层的第(j)个Node.
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    注意: (R_{2, n+3, mathscr{B_1}})应该是((x_1-a_1)^+/delta), 最开始的结构图中的对的. 我们来看一下, 什么样的(x=(x_1, ldots, x_n)), 会使得(L_1)不为0.

    如果(x_1=a_1+delta(b_1-a_1)+epsilon), 这里(epsilon>0)是一个任意小量, 和上文中的(epsilon)没有关系. 此时(当(delta<1/2))

    [frac{(x_1-b_1+delta(b_1-a_1))^+}{delta}= 0, ]

    (delta)足够小的时候

    [frac{(x_1-a_1)^+}{delta}= 0, ]

    此时(L_1=1), 类似地, 可以证明, 当(delta ightarrow 0)的时候, (x_1 in (a_1+delta(b_1-a_1),b_1-delta(b_1-a_1)))时, (L_1=1), 否则为0.

    (R_{i, j, mathscr{B_k}})的定义是类似的, 只是

    [L_k = ((L_{k-1}-(x_k-b_k+delta(a_k-b_k))^+/delta)^+- (1-(x_k-a_k)^+/delta)^+)^+, ]

    可以证明, 当(delta ightarrow 0), 且(x_t in (a_t + delta(b_t-a_t),b_t-delta(b_t-a_t)), t=1,2,ldots, k)的时候, (L_k=1.), 这样我们就构造了一个指示函数, 如果这个这函数对应的(i)为1则将(L_n)存入n+1 Node, 否则 n+2 Node (实际上, 我感觉应该存的是(b_{n+1,j,i}L_n)), 则
    在这里插入图片描述

    这里(mu)相当于(L_n). 所以多个blocks串联起来后, 我们就得到了一个函数, 且这个函数是我们想要的.
    在这里插入图片描述
    在这里插入图片描述
    这个直接通过超距体体积计算得来的, 我们只需要取:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    最后
    (g:=sum_{i=1}^2sum_{j=1}^{n_i}(-1)^{i+1}b_{n+1,j,i}mu_{j,i}),便有
    在这里插入图片描述
    此即定理1的证明.

  • 相关阅读:
    jsonp跨域+ashx(示例)
    小菜学习Winform(六)剪切板和拖放复制
    小菜学习Winform(五)窗体间传递数据
    小菜学习Winform(四)MDI窗体(附示例)
    小菜学习设计模式(四)—原型(Prototype)模式
    docker常用命令
    confluence知识管理、团队协作软件
    摩拜单车模式优于OFO双向通信才能被认可
    爬虫解决网页重定向问题
    linux 7z 命令编译安装,mac安装p7zip
  • 原文地址:https://www.cnblogs.com/MTandHJ/p/12356687.html
Copyright © 2020-2023  润新知