• Kaggle 项目之 Digit Recognizer


    train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度,共 28*28=784 个像素点,每个像素值都在 0~255 之间。

    train.csv 包含 785 列,因为第 1 列是手写数字的真实值,后面的 784 列都是像素值。除第一行外,有 42000 条数据。

    test.csv 除了不包含 label 列,其它跟 train.csv 一样。除第一行外,有 28000 条数据。

    先来看看 train.csv 里的灰度图片是什么样子。

    Python 代码:

    import os
    import pandas as pd
    import matplotlib.pyplot as plt
    
    os.chdir("E:Kaggledigit-recognizer")
    img = pd.read_csv('train.csv')
    img = img.values[0:11,1:]
    
    fig = plt.figure() 
    
    for i in range(0,9,1):
        print "
    current num is: %d" % i
        px = img[i,:]
        pix = []
        for j in range(28):
            pix.append([])
            for k in range(28):
                pix[j].append(px[j*28+k])
        ax = fig.add_subplot(330+i+1)
        ax.imshow(pix)
    plt.show()
    View Code

    train.csv 中前 9 个数字如下所示,跟文件中的 label 一样。

    KNN 示例代码:

    import pandas as pd
    import numpy as np
    import time
    from sklearn.cross_validation import cross_val_score
    
    dataset = pd.read_csv("train.csv")
    X_train = dataset.values[0:, 1:]
    y_train = dataset.values[0:, 0]
    
    X_test = pd.read_csv("test.csv").values
    
    from sklearn.neighbors import KNeighborsClassifier
    
    knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)
    
    print("Training start")
    
    start = time.clock()
    knn_clf.fit(X_train,y_train)
    elapsed = (time.clock() - start)
    print("Training Time used:",int(elapsed/60) , "min")
    
    result=knn_clf.predict(X_test)
    result = np.c_[range(1,len(result)+1), result.astype(int)]
    df_result = pd.DataFrame(result, columns=['ImageId', 'Label'])
    
    df_result.to_csv('./results.knn.csv', index=False)
    #end time
    elapsed = (time.clock() - start)
    print("Test Time used:",int(elapsed/60) , "min")
  • 相关阅读:
    解决This application failed to start because it could not find or load the Qt platform plugin "windows
    计算几何-凸包-toleft test
    Bit Operation妙解算法题
    带线表格据gt生成无线表格
    caffe的python接口提取resnet101某层特征
    camelot工具进行pdf表格解析重建
    python批量爬取文档
    IP被封检测地址
    驱动人生后门清除方案
    应用安全
  • 原文地址:https://www.cnblogs.com/NaughtyBaby/p/5357392.html
Copyright © 2020-2023  润新知