当数据量较小时 训练、开发、测试集可以按照 7:3 或者 6:2:2 的比例划分,但在数据量巨大时验证集(也叫开发集dev)和测试集增加数据量对模型的提升没有太大的作用,应该让训练集有更大的数据,例如 100 万数据量时可以考虑 98 : 1: 1 或者 99:1。
开发集和测试集应该尽可能使用同一分布,但是当实际应用的数据较少时也将其尽可能地设置为开发集和测试集,这样才能更客观的反映模型的实际效果。例如网上爬取很多图片,用户拍摄的图片较少,在猫分类中测试集应该全部或者大部分使用用户拍摄的图片。这和迁移学习的思想类似。
测试集的目的是完成系统开发之后,帮助评估系统的性能