一般在有监督训练中,我们很自然地会用如下模式去预测测试集的分类:(以svm为例)
svm.fit(x_train, y_train)
y_pred=svm.predict(x_test)
那么无监督训练中是否也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测呢?答案是:可以的!下面我们以KMeans为例说明。
import numpy as np from sklearn.cluster import KMeans from sklearn.datasets.samples_generator import make_blobs # Generate some data X_train, y_train = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0) X_test, y_test = make_blobs(n_samples=100, centers=4, cluster_std=0.80, random_state=0) kmeans = KMeans(4, random_state=0) kmeans.fit(X_train) # 方法一:手动计算测试集的分类 centroids = kmeans.cluster_centers_ labels_list = [] for i in range(X_test.shape[0]): distance = np.square(centroids - X_test[i]) distance = np.sum(distance, axis=1) label = np.argmin(distance) labels_list.append(label) # 方法二:调用predict() labels_test = kmeans.predict(X_test) # 判断两个方法的预测结果是否一样 print(labels_list == list(labels_test)) # 输出结果:True
kmeans的predict()结果和我们手动计算的结果完全相同,说明无监督训练中也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测。