• 【24】定位数据不匹配


    定位数据不匹配

    (1)如果发现存在数据不匹配问题,建议做错误分析,或者看看开发集和训练集,试图找出这两个数据集分布到底有什么不同,然后看看有没有办法收集更多看起来像开发集的数据作训练。

    (2)案例1:后视镜语音激活。发现在开发集中有很多汽车噪声,而训练集中没有,这就是造成分布不同的一大原因,解决办法就是录很多汽车噪声的声音,然后与安静的训练集进行合成形成更像开发集的训练集。这里需要注意一点是录噪声的时间多应该尽可能的多,比如1000个小时,而不是用相同的1个小时噪声取合成,因为1个小时的噪声只是所有噪声中一个很小的子集,它代表不了全部的噪声,所以如果只对这1个小时的噪声进行建模,那么建立的神经网络只能对这一个小时的噪声产生有效的反馈,而不是全部的噪声,也就是神经网络对这一小时噪声过拟合了。下图是语音的合成:

    (3)案例2:汽车目标检测同样如此,在用计算机视觉合成汽车图像作为数据集时,应该合成尽可能多的种类的汽车,而不是就一二十种汽车,如果汽车种类过少,也会产生与案例1类似的过拟合,如下图所示:

     

  • 相关阅读:
    浅谈前端的CSS
    浅谈前端的HTML
    python操作mysql
    简单的sql题目和解答
    子查询&视图&事务
    测试程序运行的时间
    API接口简单的写法
    数据库数据进行量化算法入库
    正则爬取二手房数据
    接口加密和破解
  • 原文地址:https://www.cnblogs.com/lau1997/p/12361375.html
Copyright © 2020-2023  润新知