如何正确拆分数据集？常见的三种方法总结

将数据集分解为训练集，可以帮助我们了解模型，这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。

拥有适当的验证策略是成功创建良好预测，使用AI模型的业务价值的第一步，本文中就整理出一些常见的数据拆分策略。

简单的训练、测试拆分

将数据集分为训练和验证2个部分，并以80％的训练和20％的验证。可以使用Scikit的随机采样来执行此操作。

首先需要固定随机种子，否则无法比较获得相同的数据拆分，在调试时无法获得结果的复现。如果数据集很小，则不能保证验证拆分可以与训练拆分不相关。如果数据不平衡，也无法获得相同的拆分比例。

所以简单的拆分只能帮助我们开发和调试，真正的训练还不够完善，所以下面这些拆分方法可以帮助u我们结束这些问题。

将数据集拆分为k个分区。在下面的图像中，数据集分为5个分区。

选择一个分区作为验证数据集，而其他分区则是训练数据集。这样将在每组不同的分区上训练模型。

完整文章：

相关阅读:
AngularJS启动过程分析
mongodb 基本用法大全
bitbucket工程改名导致 repository does not exist. fatal: Could not read from remote repository.
分散的配置文件VS集中的注册表
让browserify接收命令行参数，在打包时parse yml配置文件
vscode下ts-node传入cli参数
d3 .each()
d3选择全部子节点，不知道class和id
d3 parse字符串形式的xml svg and append to element
在浏览器端用es6，babel+browserify打包

原文地址：https://www.cnblogs.com/deephub/p/16387989.html