第三周 - 超参数调整,批量标准化,编程框架
第 61 题
如果在大量的超参数中搜索最佳的参数值,那么应该尝试在网格中搜索而不是使用随机值,以便更系统的搜索,而不是依靠运气,请问这句话是正确的吗?
A.对
B.不对
第 62 题
每个超参数如果设置得不好,都会对训练产生巨大的负面影响,因此所有的超参数都要调整好,请问这是正确的吗?
A.对
B.不对
第 63 题
在超参数搜索过程中,你尝试只照顾一个模型(使用熊猫策略)还是一起训练大量的模型(鱼子酱策略)在很大程度上取决于:
A.是否使用批量(batch)或小批量优化(mini-batch optimization)
B.神经网络中局部最小值(鞍点)的存在性
C.在你能力范围内,你能够拥有多大的计算能力(博主注:就是高性能电脑和低性能电脑的区别)
D.需要调整的超参数的数量
第 64 题
如果您认为(eta)(动量超参数)介于0.9和0.99之间,那么推荐采用以下哪一种方法来对(eta)值进行取样?
A.
r = np.random.rand()
beta = r * 0.09 + 0.9
B.
r = np.random.rand()
beta = 1 - 10 ** ( - r - 1 )
C.
r = np.random.rand()
beta = 1 - 10 ** ( - r + 1 )
D.
r = np.random.rand()
beta = r * 0.9 + 0.09
第 65 题
找到好的超参数的值是非常耗时的,所以通常情况下你应该在项目开始时做一次,并尝试找到非常好的超参数,这样你就不必再次重新调整它们。请问这正确吗?
A.对
B.不对
第 66 题
在视频中介绍的批量标准化中,如果将其应用于神经网络的第l层,您应该对谁进行标准化?
A.(z^{[l]})
B.(W^{[l]})
C.(a^{[l]})
D.(b^{[l]})
第 67 题
在标准化公式(z^{(i)}_{norm}=frac{z^{(i)}-mu}{sqrt{sigma^2+epsilon}}),为什么要使用epsilon(ϵ)?
A.为了更准确地标准化
B.为了避免除零操作
C.为了加速收敛
D.防止(mu)太小
第 68 题
批标准化中关于(gamma)和(eta)的以下哪些陈述是正确的?
A.对于每个层,有一个全局值(gamma in mathbb{R})和一个全局值(eta in mathbb{R}),适用于于该层中的所有隐藏单元。
B.(gamma)和(eta)是算法的超参数,我们通过随机采样进行调整
C.它们确定了给定层的线性变量(z^{[l]})的均值和方差
D.最佳值是(gamma=sqrt{sigma^2+epsilon},eta=mu)
E.它们可以用Adam、动量的梯度下降或RMSprop,而不仅仅是用梯度下降来学习
第 69 题
在训练了具有批标准化的神经网络之后,在用新样本评估神经网络的时候,您应该:
A.如果你在256个例子的mini-batch上实现了批标准化,那么如果你要在一个测试例子上进行评估,你应该将这个例子重复256次,这样你就可以使用和训练时大小相同的mini-batch进行预测。
B.使用最新的mini-batch的(mu)和(sigma^2)值来执行所需的标准化
C.跳过用(mu)和(sigma^2)值标准化的步骤,因为一个例子不需要标准化
D.执行所需的标准化,使用在训练期间,通过指数加权平均值得出的(mu)和(sigma^2)
第 70 题
关于深度学习编程框架的这些陈述中,哪一个是正确的?(选出所有正确项)
A.即使一个项目目前是开源的,项目的良好管理有助于确保它即使在长期内仍然保持开放,而不是仅仅为了一个公司而关闭或修改。
B.通过编程框架,您可以使用比低级语言(如Python)更少的代码来编写深度学习算法。
C.深度学习编程框架的运行需要基于云的机器。
61-70题 答案
61.B 62.B 63.C 64.B 65.B 66.A 67.B 68.CE 69.D 70.AB