【原】Coursera—Andrew Ng机器学习—Week 6 习题—Advice for applying machine learning

【原】Coursera—Andrew Ng机器学习—Week 6 习题—Advice for applying machine learning
【1】诊断的作用

【2】过拟合

【3】

【4】

高偏差bias，欠拟合underfitting

高方差variance，过拟合overfitting

【5】参数λ

Answer： λ太大，则参数都被惩罚，导致欠拟合，两个J都大。 λ太小，则欠拟合，J_train 小，J_cv大。

【6】

Answer：过拟合的时候，增加训练集有用。

【7】

Answer：过拟合，增加 hidden 层数无用。

-------------------------------------- 下面是Lecture 11 的内容

【8】

Answer：

A 正确。不容易猜测哪个feature是最有用的

B 错误。是一种方法，significant improve 不一定

C 错误。是一种方法，always be good 不一定

D 正确。gut feeling直觉，不推荐只根据直觉判断。

【9】J_test 和 J_cv

【10】错误度量

Answer： Precision = 80/(20+80) = 0.8， Recall = 80/(80+80) = 0.5

【11】 F1 score

【12】大数据集

Answer：如果数据所含的信息很少，增大数据集也不能解决问题。

测验

Answer：第一个欠拟合，两个误差都大。第二个过拟合，train小，cv大。

Answer：BC，过拟合：使用小的特征集，增大λ。

Answer：AB，欠拟合：增大特征集，增加多项式次数，减小λ。

Answer：AD





Answer：ABCF

A 高偏差，欠拟合说明模型不好，应该增加feature

C 参数过多，更容易过拟合

D 错误。增加 hidden 数，不能解决过拟合

E 错误。欠拟合，通过增加feature可以优化

F 过拟合，通过增加训练集可以优化

--------------- 下面是Lecture11 的内容

Answer： recall=85/（85+15）=0.85

Answer： BD

A 错误。如果features太少,多加入polynomial features 也不能够完全模拟出训练样本的特征。就像预测房价，只用房子面积这一个特征，再加上面积1次方,2次方组成的polynomial,就算训练样本再多,也不能预测出正确的房价
B 正确给专家一个x feature就可以准确的预测出y. 即所选的特征x含有足够的信息来准确预测y
C

D 正确。我们的学习算法能够表示相当复杂的功能（例如，训练神经网络或其他具有大量参数的模型）。模型复杂，表示复杂的函数，此时的特征多项式可能比较多，能够很好的拟合训练集中的数据，使用大量的数据能够很好的训练模型。

Answer：D

threshould 设定越低，查准率precision越低、查全率recall越高，因为更多负例被判断为正例。

threshould 设定越高，查准率precision越高、查全率recall越低，因为有更多正例被漏掉。



Answer：ACDFG
- Accuracy = (true positives + true negatives) / (total examples)
- Precision = (true positives) / (true positives + false positives)
- Recall = (true positives) / (true positives + false negatives)
A 正确。好的模型应该同时具有较高的precision和recall

B 错误。表现应该类似

C 正确。如果都判断为非垃圾邮件，recall=0/(0+99)=0，precision=0/(0+1)=0，accurancy=(0+99)/100 = 0.99

D 正确。交叉验证集合和训练集来源相同，表现应该类似。

E 错误。如果都判断为垃圾邮件，recall=1/(1+0)=1，precision=1/(99+1)=0.01

F 正确。同C

G 正确。同E

Answer：DEF

A 错误。不应该开始就花大量时间去收集大量数据，而应该有重点地收集有用数据

B 错误。模型欠拟合，多收集数据没有帮助。如果模型太简单、特征太少，则应该增加多项式特征，而不是收集数据

C 错误。因为可能存在偏斜数据集，最终阈值不一定是0.5

D 正确。手动检查分类错误的数据会有帮助

E 正确。使用特别大的数据集合能避免过拟合

F 正确。在很偏斜的数据集上，应该使用F₁值，而不是使用accuracy
相关阅读:
AngularJs+bootstrap搭载前台框架——准备工作
 Texygen文本生成,交大计算机系14级的朱耀明
 64个命令，每天一个linux命令目录, shutdown,tee,rcp,
10个常用的ps命令总结,参数
 典型的知识库/链接数据/知识图谱项目
 十个Chatbot框架介绍
 Shell实现多级菜单系统安装维护脚本实例分享
 Java中判断字符串是否为数字的五种方法
 Shell中判断字符串是否为数字的6种方法分享
 shell产生随机数七种方法
原文地址：https://www.cnblogs.com/maxiaodoubao/p/10076195.html