[]To help you practice strategies for machine learning, the following exercise will present an in-depth scenario and ask how you would act. Consider airplane pilots who’s training involves time spent in flight simulators. These flight simulators accelerate the pilots’ learning by allowing them to experience a volume and variety of scenarios that they otherwise may have needed a much longer time to acquire.
The following exercise is a “flight simulator” for machine learning. Rather than you needing to spend years working on a machine learning project before you get to experience certain scenarios, you’ll get to experience them right here.
Personal note from Andrew: I’ve found practicing with scenarios like these to be useful for training PhD students and advanced Deep Learning researchers. This is the first time this type of “airplane simulator” for machine learning strategy has ever been made broadly available. I hope this helps you gain “real experience” with machine learning much faster than even full-time machine learning researchers typically do from work experience.
【中文翻译】
为了帮助您练习机器学习的策略, 下面的练习将呈现一个 in-depth 的场景, 并询问您将如何行动。考虑飞机驾驶员的训练需要花费时间在飞行模拟器上。这些飞行模拟器加速了飞行员的学习, 使他们能够体验到他们可能需要更长时间才能获得的大量和不同的场景。
下面的练习是机器学习的 "飞行模拟器"。你需要花费数年的时间在一个机器学习项目,你才能体验到的,在这里你会体验到他们。
Andrew的个人笔记: 我发现练习这种情景对培养博士生和高级深度学习研究人员是有用的。这是第一次这种类型的 "飞机模拟器" 的机器学习策略广泛提供。我希望这能帮助你获得 "真正的机器学习经验" ,甚至比全日制机器学习的研究人员从通常做的工作中获得经验快得多。
------------------------------------------------------------------------------------------------
Bird recognition in the city of Peacetopia (case study)
【中文翻译】
1、问题陈述
这个例子是从一个真正的生产应用, 但细节伪装, 以保护机密。
你是 Peacetopia 市的著名研究员。Peacetopia 的人有一个共同的特点: 他们害怕鸟。为了救他们, 你必须建立一个算法, 将检测任何鸟飞越 Peacetopia 并向人们警报。
【中文翻译】
A、一个更大的测试集将减慢迭代的速度, 因为在测试集上评估模型的计算费用。
B、这将导致开发和测试集分布变得不同。这是一个坏主意, 因为你没有瞄准你想要击中的地方。
C、测试集不再反映您最关心的数据 (安全摄像机拍的) 的分布。
D、与其余的数据相比,100万公民的数据图像没有一个一致的 x->> y 映射 (类似于纽约市/底特律住房价格的例子, 从讲座)。
【中文翻译】
B、这是一个统计异常 (或必须是统计噪声的结果), 因为它不应该是可能超越人类的水平的表现。
C、如果测试集足够大, 足以使0.05% 错误估计准确, 这意味着贝叶斯错误率是≤0.05
D、只要有0.09% 的进一步进展, 你应该能够迅速减少剩余的差距到0%
【中文翻译】
B、请您的团队在开发过程中考虑准确性和假负率。
C、重新考虑此任务的适当度量, 并要求您的团队调整到新的度量标准。
D、选择假负率作为新的度量, 并使用这个新的度量来推动所有的进一步发展。
【中文翻译】
C、尝试数据扩充/数据合成, 以获得更多的新类型的鸟图像。
D、将1000图像添加到数据集中, 重新调整为新的火车/开发/测试剥离。
【中文翻译】
A、建立了一个好的鸟探测器, 你应该能够采取相同的模型和参数, 只是将它应用到 Cat 数据集, 所以没有必要迭代。
B、需要两个星期的训练将限制你可以循环的速度。
C、购买更快的计算机可以加快团队的迭代速度, 从而提高团队的工作效率。
D、如果1亿的例子足以建立一个足够好的 Cat 检测器, 用1000万个例子, 你可能会更好的训练, 在快速运行实验方面,获得一个a≈10x 的改进,即使每个模型表现得有点差, 因为它的训练较少数据.