• sklearn 划分数据集。


    1.sklearn.model_selection.train_test_split随机划分训练集和测试集

         

     

        函数原型:

          X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

        参数解释: 

      train_data:所要划分的样本特征集

      train_target:所要划分的样本结果

      test_size:样本占比,如果是整数的话就是样本的数量

      random_state:是随机数的种子。

         随机数种子的意义在于,如何区分这个数据集,完全是按照随机数种子来决定,至于怎么决定,我们其实并不关心,比如你分了两次,随机种子都是0,那么你得到的两次划分也一定是一样的。

      

     
     1     fromsklearn.cross_validation import train_test_split  
     2     train= loan_data.iloc[0: 55596, :]  
     3     test= loan_data.iloc[55596:, :]  
     4     # 避免过拟合,采用交叉验证,验证集占训练集20%,固定随机种子(random_state)  
     5     train_X,test_X, train_y, test_y = train_test_split(train,  
     6                                                        target,  
     7                                                        test_size = 0.2,  
     8                                                        random_state = 0)  
     9     train_y= train_y['label']  
    10     test_y= test_y['label']  

      2. kl-fold 划分

    • 将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个自己有m/k个训练样例,相应的子集为{s1,s2,...,sk}
    • 每次从分好的子集里面,拿出一个作为测试集,其他k-1个作为训练集
    • 在k-1个训练集上训练出学习器模型
    • 把这个模型放到测试集上,得到分类率的平均值,作为该模型或者假设函数的真实分类率

    这个方法充分利用了所以样本,但计算比较繁琐,需要训练k次,测试k次

      

    import numpy as np
    #KFold
    from sklearn.model_selection import KFold
    X=np.array([[1,2],[3,4],[5,6],[7,8],[9,10],[11,12]])
    y=np.array([1,2,3,4,5,6])
    kf=KFold(n_splits=2)    #分成几个组
    kf.get_n_splits(X)
    print(kf)
    
    for train_index,test_index in kf.split(X):
        print("Train Index:",train_index,",Test Index:",test_index)
        X_train,X_test=X[train_index],X[test_index]
        y_train,y_test=y[train_index],y[test_index]
        #print(X_train,X_test,y_train,y_test)
    #KFold(n_splits=2, random_state=None, shuffle=False) #Train Index: [3 4 5] ,Test Index: [0 1 2] #Train Index: [0 1 2] ,Test Index: [3 4 5]

    more:http://www.cnblogs.com/nolonely/p/7007432.html

     

  • 相关阅读:
    NPOI操作Excel
    父窗口调用iframe子窗口方法
    js 全选全不选
    常用的几种 SQLServer 分页查询方式实现
    通用简单的 分页 SQL
    C#导出
    delphi xe firemonkey 调用VLC播放器播放视频
    Android版本和API Level对应关系
    Android开发之视频录制1
    Android上实现视频录制
  • 原文地址:https://www.cnblogs.com/silence-tommy/p/7773806.html
Copyright © 2020-2023  润新知