将数据集分解为训练集,可以帮助我们了解模型,这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。
拥有适当的验证策略是成功创建良好预测,使用AI模型的业务价值的第一步,本文中就整理出一些常见的数据拆分策略。
简单的训练、测试拆分
将数据集分为训练和验证2个部分,并以80%的训练和20%的验证。可以使用Scikit的随机采样来执行此操作。
首先需要固定随机种子,否则无法比较获得相同的数据拆分,在调试时无法获得结果的复现。如果数据集很小,则不能保证验证拆分可以与训练拆分不相关。如果数据不平衡,也无法获得相同的拆分比例。
所以简单的拆分只能帮助我们开发和调试,真正的训练还不够完善,所以下面这些拆分方法可以帮助u我们结束这些问题。
K折交叉验证
将数据集拆分为k个分区。在下面的图像中,数据集分为5个分区。
选择一个分区作为验证数据集,而其他分区则是训练数据集。这样将在每组不同的分区上训练模型。
完整文章:
https://avoid.overfit.cn/post/f22df2a461e84e91a78f6c66e07a7632