1.1 训练——开发——测试集
经验法则: Make sure dev and test come from same distribution
1.2 偏差_方差
1.4 Logistic regression
为什么只正则化参数w,为什么不再加上参数b呢?
因为w通常是一个高维参数矢量,已经可以表达高偏差问题。W可能含有很多参数,我们不可能拟合所有的参数,而b只是单个数字。其实加上b也没什么太大影响,因为b只是众多参数中的一个,所以通常忽略不计。
为什么只正则化参数w,为什么不再加上参数b呢?
因为w通常是一个高维参数矢量,已经可以表达高偏差问题。W可能含有很多参数,我们不可能拟合所有的参数,而b只是单个数字。其实加上b也没什么太大影响,因为b只是众多参数中的一个,所以通常忽略不计。