一、数据集切割
我们通常将数据及切割成两部分:训练数据集(Training Dataset);测试数据集(Testing Dataset).
注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。
1.数据分割
• 80%训练数据→在训练数据上可以做任何的分析
• 20%测试数据→在测试数据上不可做任何的分析
2. 10-fold cross -validation
将数据集分成10份,做十次训练和测试,每次那一块作为测试集,剩下9份作为训练集。
一、数据集切割
我们通常将数据及切割成两部分:训练数据集(Training Dataset);测试数据集(Testing Dataset).
注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。
1.数据分割
• 80%训练数据→在训练数据上可以做任何的分析
• 20%测试数据→在测试数据上不可做任何的分析
2. 10-fold cross -validation
将数据集分成10份,做十次训练和测试,每次那一块作为测试集,剩下9份作为训练集。