【12】超参数及超参数的选择

超参数

主要的超参数是上面几个，最重要的是红色的学习率，其次是黄色的 m-b尺寸、隐藏层层数、动量梯度下降的贝塔。

左图是早期超参数选择的方法：以两个超参数的选择为例，在网格中均匀布置一些点，然后将这些点全部试一遍，哪个效果好用哪个。右图是之后有的随机选择点的方法，把随机选择的点全部试一遍，哪个好用哪个。这个是二维参数（两个参数）的情况，三个参数就要立体的了，更多参数就是更高维。

另一个惯例是采用由粗糙到精细的策略，也许你会发现效果最好的某个点，这个点周围的其他一些点效果也很好。之后放大这块小区域，然后在其中更密集地取值，找更佳的参数点。

为超参数选择合适的范围：

如果我们猜测隐藏层的单元数的最佳值在50-100之间，神经网络层数的最优值在2-4之间，我们想找到这个最佳值，那么就要在这个区间中列出一些点，看看哪个效果更好，此时取值方法用均匀取值较为合理。

但是如果想找到学习率0.0001到1之间的最佳值，用均匀取值就不合适了。可以用对数取值，下面两个式子是在0.0001-1之间对数取值的方法。右图是更一般的方法，a是以10为底左端点的对数。b是以10为底右端点的对数，r在a、b之间均匀取值，埃尔法=10的r次方。

另一个例子是对随机加权指数贝塔的取值，如果贝塔想在0.9-0.999之间取值，好的方法是先对1-贝塔取值，再用1-it。因为1-贝塔=0.1-0.001，所以就可以用之前的方法了。右下角的三个式子就是取值方法。

相关阅读:
mem 预留内存
关于内核反汇编，同时显示源文件
读些笔记
platform设备驱动
glut 右键子菜单
获取HINSTANCE
window窗口样式style
opengl 直线拾取
glut弹出式菜单
读取大恒采集卡c++代码

原文地址：https://www.cnblogs.com/lau1997/p/12361278.html