train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度,共 28*28=784 个像素点,每个像素值都在 0~255 之间。
train.csv 包含 785 列,因为第 1 列是手写数字的真实值,后面的 784 列都是像素值。除第一行外,有 42000 条数据。
test.csv 除了不包含 label 列,其它跟 train.csv 一样。除第一行外,有 28000 条数据。
先来看看 train.csv 里的灰度图片是什么样子。
Python 代码:
import os import pandas as pd import matplotlib.pyplot as plt os.chdir("E:Kaggledigit-recognizer") img = pd.read_csv('train.csv') img = img.values[0:11,1:] fig = plt.figure() for i in range(0,9,1): print " current num is: %d" % i px = img[i,:] pix = [] for j in range(28): pix.append([]) for k in range(28): pix[j].append(px[j*28+k]) ax = fig.add_subplot(330+i+1) ax.imshow(pix) plt.show()
train.csv 中前 9 个数字如下所示,跟文件中的 label 一样。
KNN 示例代码:
import pandas as pd import numpy as np import time from sklearn.cross_validation import cross_val_score dataset = pd.read_csv("train.csv") X_train = dataset.values[0:, 1:] y_train = dataset.values[0:, 0] X_test = pd.read_csv("test.csv").values from sklearn.neighbors import KNeighborsClassifier knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3) print("Training start") start = time.clock() knn_clf.fit(X_train,y_train) elapsed = (time.clock() - start) print("Training Time used:",int(elapsed/60) , "min") result=knn_clf.predict(X_test) result = np.c_[range(1,len(result)+1), result.astype(int)] df_result = pd.DataFrame(result, columns=['ImageId', 'Label']) df_result.to_csv('./results.knn.csv', index=False) #end time elapsed = (time.clock() - start) print("Test Time used:",int(elapsed/60) , "min")