• 吴恩达 — 神经网络与深度学习 — L2W2练习


    第二周 - 优化算法

    第 51 题

    当输入从第8个mini-batch的第7个的例子的时候,你会用哪种符号表示第3层的激活?

    A.(a^{[3]{8}(7)})

    B.(a^{[8]{7}(3)})

    C.(a^{[8]{3}(7)})

    D.(a^{[3]{7}(8)})

    第 52 题

    关于mini-batch的说法哪个是正确的?

    A.mini-batch迭代一次(计算1个mini-batch),要比批量梯度下降迭代一次快

    B.用mini-batch训练完整个数据集一次,要比批量梯度下降训练完整个数据集一次快

    C.在不同的mini-batch下,不需要显式地进行循环,就可以实现mini-batch梯度下降,从而使算法同时处理所有的数据(矢量化)

    第 53 题

    为什么最好的mini-batch的大小通常不是1也不是m,而是介于两者之间?

    A.如果mini-batch的大小是1,那么在你取得进展前,你需要遍历整个训练集

    B.如果mini-batch的大小是m,就会变成批量梯度下降。在你取得进展前,你需要遍历整个训练集

    C.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处

    D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢

    第 54 题

    如果你的模型的成本(J)随着迭代次数的增加,绘制出来的图如下,那么:

    Image Name

    A.如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的

    B.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题

    C.无论你在使用mini-batch还是批量梯度下降,看上去都是合理的

    D.无论你在使用mini-batch还是批量梯度下降,都可能有问题

    第 55 题

    假设一月的前三天卡萨布兰卡的气温是一样的:
    一月第一天: ( heta_1 = 10)
    一月第二天: ( heta_2 = 10)

    假设您使用(eta = 0.5)的指数加权平均来跟踪温度:(v_0=0,v_t=eta v_{t-1}+(1-eta) heta_t)。如果(v_2)是在没有偏差修正的情况下计算第2天后的值,并且(v_2^{corrected})是您使用偏差修正计算的值。 这些下面的值是正确的是?

    A.(v_2=10,v_2^{corrected}=10)

    B.(v_2=10,v_2^{corrected}=7.5)

    C.(v_2=7.5,v_2^{corrected}=7.5)

    D.(v_2=7.5,v_2^{corrected}=10)

    第 56 题

    下面哪一个不是比较好的学习率衰减方法?

    A.(alpha = frac{1}{1+2*t}alpha_0)

    B.(alpha=frac{1}{sqrt{t}}alpha_0)

    C.(alpha=0.95^talpha_0)

    D.(alpha=e^talpha_0)

    第 57 题

    您在伦敦温度数据集上使用指数加权平均, 使用以下公式来追踪温度:(v_t=eta v_{t-1}+(1-eta) heta_t)。下图中红线使用的是(eta=0.9)来计算的。当你改变(eta)时,你的红色曲线会怎样变化?(选出所有正确项)

    Image Name

    A.减小(eta),红色线会略微右移
    B.增加(eta),红色线会略微右移
    C.减小(eta),红线会更加震荡
    D.增加(eta),红线会更加震荡

    第 58 题

    下图中的曲线是由:梯度下降,动量梯度下降((eta=0.5))和动量梯度下降((eta=0.9))。哪条曲线对应哪种算法?

    Image Name

    A.(1)是梯度下降;(2)是动量梯度下降((eta=0.9));(3)是动量梯度下降((eta=0.5)

    B.(1)是梯度下降;(2)是动量梯度下降((eta=0.5));(3)是动量梯度下降((eta=0.9)

    C.(1)是动量梯度下降((eta=0.5));(2)是动量梯度下降((eta=0.9));(3)是梯度下降

    D.(1)是动量梯度下降((eta=0.5));(2)是梯度下降;(3)是动量梯度下降((eta=0.9)

    第 59 题

    假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数(J(W^{[1]},b^{[1]},…,W^{[L]},b^{[L]}))小。以下哪些方法可以帮助找到(J)值较小的参数值?

    A.令所有权重值初始化为0

    B.尝试调整学习率

    C.尝试mini-batch梯度下降

    D.尝试对权重进行更好的随机初始化

    E.尝试使用 Adam 算法

    第 60 题

    关于Adam算法,下列哪一个陈述是错误的?

    A.Adam结合了Rmsprop和动量的优点

    B.Adam中的学习率超参数(alpha)通常需要调整

    C.我们经常使用超参数的“默认”值(eta_1=0,9,eta_2=0.999,epsilon=10^{-8})

    D.Adam应该用于批梯度计算,而不是用于mini-batch

    51-60题 答案

    51.A 52.A 53.BC 54.B 55.D 56.D 57.BC 58.B 59.BCDE 60.D

  • 相关阅读:
    CH the luckiest number 欧拉函数 同余
    bzoj1257余数求和 数论分块 暴力
    luogup1463 反素数
    CH3101 阶乘分解
    T10396 曹老板斗地主(中度模拟)
    NOIP 2015子串(DP)
    CF1205B Shortest Cycle(Floyd判最小环)
    P2055 [ZJOI2009]假期的宿舍(二分图匹配)
    灾后重建(最短路)
    CF1098A Sum in the tree(贪心)
  • 原文地址:https://www.cnblogs.com/YukiNote/p/12273845.html
Copyright © 2020-2023  润新知