• 胡思乱想(1) The Mechanism of SVRG


    The mechanism of SVRG

    首先回顾一下,在strongly convex和\(L\)-smooth条件下,我们是可以去得到线性收敛的收敛速度,也就是\(\mathcal{O}(\log(\frac 1\epsilon))\)(这里省去了条件数\(\kappa\))。而在随机梯度下降的条件下,我们取得的收敛速度是次线性收敛速度,也就是\(\mathcal{O}(\frac 1 \epsilon)\)

    相比于确定性deterministic算法来说,随机性stochastic算法得到的梯度在期望上是一致的,但是样本选取的随机性为收敛的上界引入了方差(一般来说我们会假设这个方差上界是固定的)。为了解决引入的方差(固定值),我们通过让学习率/步长\(\eta=\mathcal{O}(1/t)\)以保证收敛。

    SVRG的机制在于,在保证期望相同的同时,使得方差不再是一个固定的值,而是随着目标函数值的更新而逐渐下降的。具体而言

    X9YZFI.png

    \(v_t\)是用来更新/搜索的方向,根据方差的公式\(\text{Var}(x) = \mathbb{E}[x^2] - \mathbb{E}[x]^2\),可以看到方差的第一项是跟损失函数\(P_{t-1}\)相关的,如果损失函数是下降的话,那么对应的方差也是下降的。

  • 相关阅读:
    匹配session
    Jdk1.8+Eclipse+MySql+Tomcat开发Java应用的环境搭建
    MySQL忘记密码怎么办
    MyBatis框架Maven资源
    MyBatis核心配置文件模版
    MyBatis执行过程显示SQL语句的log4j配置
    MyBatis实体类映射文件模板
    Mybatis 学习-4
    Spring Boot + Swagger
    Spring Boot + Swagger
  • 原文地址:https://www.cnblogs.com/DemonHunter/p/16303603.html
Copyright © 2020-2023  润新知