• 一、sklearn实现K邻近分类算法


    一、K邻近算法的基本概念

      一个样本在特征空间中最邻近(距离)的K个样本大多数属于某一个类别,则该样本也属于这个类别。

    二、sklearn使用欧氏距离实现KNN算法

    # 倒入sklearn库中的KNN算法类
    from sklearn.neighbors import KNeighborsClassifier
    
    # 创建KNN算法实例并设置K值
    KNN_classifier = KNeighborsClassifier(n_neighbors=4)
    
    # 传入训练样本数据拟合KNN模型
    KNN_classifier.fit(train_x, train_y)
    
    # 传入测试样本数据进行预测,并返回预测结果
    KNN_classifier.predict(test_x)
    View Code

    三、sklearn使用train_test_split来测试模型的性能(iris鸢尾花数据)

    import numpy as np
    
    # 导入sklearn模块的数据集
    from sklearn import datasets
    
    # 导入sklearn模块中的随机拆分数据的模块
    from sklearn.model_selection import train_test_split 
    
    # 导入sklearn模块中的KNN算法模块
    from sklearn.neighbors import KNeighborsClassifier
    
    # 取iris数据集
    iris = datasets.load_iris() 
    
    X = iris.data  # 样本特征集(150, 4)
    y = iris.target # 样本标签集(150,)
    
    # 随机拆分数据,默认test_size=0.2 20%拆分
    # random_state = 666 设置随机种子
    # X_train.shape = (112, 4)
    # X_test.shape = (38, 4)
    # y_test.shape = (38,)
    # y_train.shape = (112,)
    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=666)
    
    # 创建KNN算法实例并设置K值
    KNN_classifier = KNeighborsClassifier(n_neighbors=6) 
    
    # 传入训练样本数据拟合KNN模型
    KNN_classifier.fit(X_train, y_train)
    
    # 传入测试样本数据进行预测,并返回预测结果
    y_predict = KNN_classifier.predict(X_test)
    
    # 验证预测准确率
    sum(y_predict == y_test)/len(y_test) # 0.9210526315789473
    View Code

    四、sklearn实现预测准确率算法

    import numpy as np
    from sklearn import datasets
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.model_selection import train_test_split
    
    # 判断模型预测准确率的模型
    from sklearn.metrics import accuracy_score
    
    # 导入手写数据集
    digits = datasets.load_digits()
    # X样本数据集:(1797, 64)
    # y标签数据集:(1797,)
    X = digits.data
    y = digits.target
    
    # 按2:8随机拆分数据集
    X_train, X_test, y_train, y_test = train_test_split(X, y ,test_size=0.2)
    
    # 生成KNN算法实例,并设置K=3
    KNN_classifier = KNeighborsClassifier(n_neighbors=3)
    
    # KNN拟合模型
    KNN_classifier.fit(X_train, y_train)
    
    # 通过拟合的KNN模型预测结果,并返回预测结果集
    y_predict = KNN_classifier.predict(X_test)
    
    # 返回预测准确率
    accuracy_score(y_test, y_predict) # 0.9916666666666667
    # KNN_classifier.score(X_test, y_test)
    View Code

    五、sklearn通过网格搜索来优化KNN算法中的超参数

    1、超参数和模型参数

    • 超参数:在算法运行前需要决定的参数
    • 模型参数:算法运行过程中学习到的参数

    2、KNN算法中的超参数

    • K值:邻近的点的数量选择
    • 距离权重
    • p值

    3、距离权重超参数

    定义:一般距离权重是距离的倒数值

    EXP:

      当1个样本的最近的3个样本(A类一个,B类两个),距离A类为1个单位,距离B类分别是3个和4个单位,不考虑距离权重时,样本是B类,考虑距离权重时,距离A类的权重为1,B类权重为1/3+1/4=7/12为A类;当3个点是3类是不考虑权重则属于3个类别的概率相同,所以KNN算法应当考虑距离权重。

    sklearn.KNeighborsClassifier类中有一个weights参数默认是uniform(不考虑距离权重),distance(考虑距离权重)

    4、p超参数

    距离的定义有:欧氏距离、曼哈顿距离、明科夫实际距离、....

    sklearn.KNeighborsClassifier类中有一个p参数,接受整型值(默认值为2,欧氏距离)

    5、网格搜索寻找最优超参数

    from sklearn import datasets
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.model_selection import train_test_split
    
    # 导入网格搜索模块
    from sklearn.model_selection import GridSearchCV
    
    # 导入手写数据集
    digits = datasets.load_digits()
    
    # X样本数据集:(1797, 64)
    # y标签数据集:(1797,)
    X = digits.data
    y = digits.target
    
    # 按2:8随机拆分数据集
    X_train, X_test, y_train, y_test = train_test_split(X, y ,test_size=0.2)
    
    # 定义网格搜索参数
    # weights='distance', p参数才有意义
    param_grid = [    
        {
            'weights':['uniform'],
            'n_neighbors': [i for i in range(1, 11)]
        },
        {
            'weights':['distance'],
            'n_neighbors': [i for i in range(1, 11)],
            'p': [i for i in range(1, 6)]
        }]
    
    # 创建KNN算法类实例
    KNN_clf = KNeighborsClassifier()
    
    # 创建网格搜索类实例
    # n_jobs设置并行运行,默认是1,-1是最大并行运行
    # verbose=int 设置输出
    grid_search = GridSearchCV(KNN_clf, param_grid,n_jobs=2, verbose=2)
    
    # 拟合网格搜索算法
    grid_search.fit(X_train, y_train)
    
    # 搜索到的最优参数的分类器
    # 可以直接调用knn_clf.precdi
    knn_clf = grid_search.best_estimator_
    
    # 搜索到的最优参数
    grid_search.best_params_
    
    # 最优参数下的准确率
    grid_search.best_score_
    
    # 使用最优参数分类器预测
    knn_clf.predict(X_test)
    
    # 使用最优参数分类器预测的准确率
    knn_clf.score(X_test, y_test)
    View Code

    六、sklearn实现数据归一化

    1、数据归一化的概念

    把数据映射到同一尺度上,数据归一化可以让算法更快收敛

    2、常用的数据归一化的方法

    • 最值归一化:当数据有明显边界时,把所有数据映射到0-1之间,x_scale = (x-x_min)/(x_max-x_main)
    • 均值方差归一化:当数据没有明显边界时,把所有数据归一到均值为0方差为1的分布中,x_scale = (x - x_mean)/ s  (s为方差),测试集的均值方差归一化使用的是训练集的x_mean和s
    from sklearn import datasets
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    
    iris = datasets.load_iris()
    
    X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
    
    standard_scaler = StandardScaler()
    standard_scaler.fit(X_train)
    
    # 均值
    standard_scaler.mean_
    
    # 方差
    standard_scaler.var_
    
    # 标准差
    standard_scaler.scale_
    
    # 训练集归一化操作
    X_train = standard_scaler.transform(X_train)
    
    # 测试集归一化操作
    X_test = standard_scaler.transform(X_test)
    KNN_clf = KNeighborsClassifier(n_neighbors=3)
    KNN_clf.fit(X_train, y_train)
    KNN_clf.score(X_test, y_test)
    View Code

    七、总结sklearn实现并优化KNN算法的流程

    1、流程

    • 导入数据
    • 使用train_test_split随机拆分数据
    • 使用StandardScaler对数据进行均值方差归一化
    • 使用GridSearchCV网格搜索来优化k值、距离权重和p值等超参数
    • 使用accuracy_score或者score来取得预测值的准确率

    2、优缺点

    • 优点:天然的单、多分类算法,简单、效果好
    • 缺点:
      •   效率低,每一样本的计算复杂度高
      •   高度数据相关
      •   预测结果不具备可解释性
      •   维数灾难,处理高维度数据会出现问题
  • 相关阅读:
    在同一asp.net website工程中引用app_code中定义的control
    perl中的ppm 安装包时,如果通过代理如何下载最新的包及离线安装的问题
    利用htc s900拨号上联通3G网
    转载一篇有关ramdisk 的使用的文章
    .net dataTable对象的处理性能
    TPlink 340G+设置外网访问内网机器
    C++中的const关键字(zz)
    存在 汪峰
    ETW (Event Tracing for Windows)介绍
    理解smart pointer之一(auto_ptr介绍)
  • 原文地址:https://www.cnblogs.com/jp-mao/p/10430778.html
Copyright © 2020-2023  润新知