定位数据不匹配
(1)如果发现存在数据不匹配问题,建议做错误分析,或者看看开发集和训练集,试图找出这两个数据集分布到底有什么不同,然后看看有没有办法收集更多看起来像开发集的数据作训练。
(2)案例1:后视镜语音激活。发现在开发集中有很多汽车噪声,而训练集中没有,这就是造成分布不同的一大原因,解决办法就是录很多汽车噪声的声音,然后与安静的训练集进行合成形成更像开发集的训练集。这里需要注意一点是录噪声的时间多应该尽可能的多,比如1000个小时,而不是用相同的1个小时噪声取合成,因为1个小时的噪声只是所有噪声中一个很小的子集,它代表不了全部的噪声,所以如果只对这1个小时的噪声进行建模,那么建立的神经网络只能对这一个小时的噪声产生有效的反馈,而不是全部的噪声,也就是神经网络对这一小时噪声过拟合了。下图是语音的合成:
(3)案例2:汽车目标检测同样如此,在用计算机视觉合成汽车图像作为数据集时,应该合成尽可能多的种类的汽车,而不是就一二十种汽车,如果汽车种类过少,也会产生与案例1类似的过拟合,如下图所示: