Python-机器学习基础-K近邻算法

Python-机器学习基础-K近邻算法
K近邻算法
- 简介
  - 定义
    
    通俗来讲，通过你的"邻居"来判断你属于哪个类别
  - 计算你到"邻居"的距离
    
    一般情况，使用欧氏距离
- K近邻算法API初步使用
  - sklearn优势
    
    资料文档多且规范
    
    包含的算法多
    
    实现起来容易
  - sklearn内容
    
    分类，聚类，回归
    
    特征工程
    
    模型选择、调优
  - Knn中的API
    
    sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)
    
    参数：n_neighbors -- 选定参考几个邻居
  - 机器学习中实现的过程
    
    实例化一个估计器
    
    使用fit方法进行训练
- 距离度量
  - 1、欧氏距离
    
    通过距离平方值进行计算
  - 2、曼哈顿距离
    
    通过距离的绝对值进行计算
  - 3、切比雪夫距离
    
    维度最大值进行计算
  - 4、闵可夫斯基距离
    
    p = 1，曼哈顿距离
    
    p = 2，欧氏距离
    
    p = ∞，切比雪夫距离
  - 小结
    
    前面四个距离公式都把单位相同看待，所以计算过程不是很科学
  - 5、标准欧氏距离
    
    在计算过程中添加了标准差，对量纲数据进行处理
  - 6、余弦距离
    
    通过cos函数思想
  - 7、汉明距离
    
    一个字符串到另一个字符串需要变换几个字母，进行统计
  - 8、杰卡德距离
    
    通过交并集进行统计
  - 9、马氏距离
    
    通过样本分布进行计算
- K值选择
  - K值过小
    
    容易受到异常点的影响
    
    过拟合
  - K值过大
    
    受到样本均衡的问题
    
    欠拟合
  - 拓展
    
    近似误差 -- 过拟合 -- 在训练集上表现好，测试集表现不好估计误差好才是真的好
- kd树
  - 构建树
  - 最近邻域搜索
  - 案例
    
    构建树
    
    第一次
    
    x轴 -- 2，5，9，4，8，7 --> 2，4，5，7，8，9 y轴 -- 2，4，6，7，1，2 --> 1，2，3，4，6，7
    
    首先选择x轴，找中间点，发现是（7，2）
    
    第二次
    
    左面：(2,3), (4,7), (5,4) --> 3,4,7 右面：(8,1), (9,6) --> 1,6
    
    从y轴开始选择点(5,4),右边选择点(9,6)
    
    第三次
    
    从x轴开始选择
    
    搜索
    
    在本域内，没有进行跨域搜索
    
    要跨到其他域进行搜索
- 案例：鸢尾花种类预测--数据集介绍
  - 获取数据集
    
    sklearn.datasets
    
    小数据
    
    sklearn.datasets.load_*
    
    数据从本地获取
    
    大数据
    
    sklearn.datasets.fetch_*
    
    数据从网上下载
    
    subset--表示获取到的数据集类型
  - 数据集返回值介绍
    
    返回值类型bunch--字典类型
    
    返回值的属性
    
    data：特征数据数组
    
    target：标签(目标)数组
    
    DESCR：数据描述
    
    feature_name：特证名
    
    target_names：标签(目标值)名
  - 数据可视化
    
    导入imort seaborn
    
    seaborn.lmplot()
    
    x，y -- 具体x轴，y轴数据的索引值
    
    data -- 具体数据
    
    hue -- 目标值是什么
    
    fit_reg -- 是否进行线性拟合
  - 数据集划分
    
    API
    
    from sklearn.model_selection import train_test_split
    
    sklearn.model_selection.train_test_split(arrays, *options)
    
    参数
    
    x -- 特征值
    
    y -- 目标值
    
    test_size -- 测试集大小
    
    random_state -- 随机数种子
    
    返回值
    
    x_train, x_test, y_train, y_test
- 特征工程-特征预处理
  - 定义
    
    通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
  - 包含内容
    
    归一化
    
    标准化
  - API
    
    sklearn.preprocessing
  - 归一化
    
    定义
    
    对原始数据进行变换把数据映射到(默认为[0，1]之间)
    
    API
    
    sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)...)
    
    参数：feature_range -- 自己指定范围，默认0-1
    
    总结
    
    鲁棒性比较差(容易受到异常点影响)
    
    只适合传统精确小数据场景(以后不会使用)
  - 标准化
    
    定义
    
    对原始数据进行变换把数据变换到均值为0，标准差为1范围内
    
    API
    
    sklearn.preprocessing.StandardScaler()
    
    总结
    
    异常值影响小
    
    适合现在嘈杂的大数据场景（基本都是用这个）
- 案例：鸢尾花种类预测--流程实现
  - API
    
    sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
    
    algorithm -- 选择什么样的算法进行计算
    
    auto、ball_tree、kd_tree、brute
  - 一般流程
    
    1、获取数据集
    
    2、数据基本处理
    
    3、特征工程
    
    4、机器学习（模型训练）
    
    5、模型评估
- K近邻算法总结
  - 优点
    
    简单有效
    
    重新训练代价低
    
    适合大样本自动分类
    
    适合类域交叉样本
  - 缺点
    
    惰性学习
    
    类别评分不是规格化
    
    输出可解释性不强
    
    对不均衡样本不擅长
    
    样本不均衡：收集到的数据每个类别严重失衡
    
    基本解决：重新采样
    
    计算量大
- 交叉验证和网格搜索
  - 交叉验证
    
    定义：将拿到的训练数据，分为训练和验证集*折交叉验证
    
    分割方式
    
    训练集：训练集+验证集
    
    测试集：测试集
    
    为什么需要交叉验证
    
    为了让评估的模型更加准确可信
    
    注意：交叉验证不能提高模型的准确率
  - 网格搜索
    
    超参数
    
    sklearn中，需要手动指定的参数，叫做超参数
    
    网格搜索就是把这些超参数的值，通过字典的形式传递进去，然后进行最优值
  - API
    
    sklearn.model_selection.GridSearchCV(estimator, param_grid=None, cv=None)
    
    estimator -- 选择哪个训练模型
    
    param_grid -- 需要传递的超参数
    
    cv -- 几折交叉验证
案例流程
```
"""
1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
"""
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 1.获取数据集
iris = load_iris()
# 2.数据基本处理
# 2.1 数据分割
x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=22, test_size=0.2)
# 3.特征工程
# 3.1 实例化一个转换器
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)
# 4.机器学习(模型训练)
# 4.1 实例化一个估计器
estimator = KNeighborsClassifier(n_neighbors=1)
# 4.2 调用交叉验证网格搜索模型
param_grid = {"n_neighbors":[1,3,5,7]}
estimator = GridSearchCV(estimator, param_grid=param_grid, cv=10, n_jobs=1)

# 4.3 模型训练
estimator.fit(x_train,y_train)

# 5.模型评估
# 5.1输出预测值
y_pre = estimator.predict(x_test)
print("预测值是：
",y_pre)
print("预测值和真实值对比：
",y_pre == y_test)

# 5.2 输出准确率
ret = estimator.score(x_test, y_test)
print("准确率是：
",ret)

# 5.3 其他评价指标
print("最好的模型：
",estimator.best_estimator_)
print("最好的结果：
",estimator.best_score_)
print("整体模型结果：
",estimator.cv_results_)
```
结果：
```
预测值是：
 [0 2 1 1 1 1 1 1 1 0 2 1 2 2 0 2 1 1 1 1 0 2 0 1 1 0 1 1 2 1]
预测值和真实值对比：
 [ True  True  True False  True  True  True False  True  True  True  True
  True  True  True  True  True  True False  True  True  True  True  True
 False  True False False  True False]
准确率是：
 0.7666666666666667
最好的模型：
 KNeighborsClassifier()
最好的结果：
 0.9666666666666666
整体模型结果：
 {'mean_fit_time': array([0.00055301, 0.00039883, 0.00050271, 0.00099938]), 'std_fit_time': array([4.70469869e-04, 4.88460843e-04, 5.02844264e-04, 7.18352449e-06]), 'mean_score_time': array([0.00099759, 0.00099237, 0.00099008, 0.00099123]), 'std_score_time': array([4.45478308e-04, 1.30509076e-05, 1.65153877e-05, 1.30099887e-05]), 'param_n_neighbors': masked_array(data=[1, 3, 5, 7],
             mask=[False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'n_neighbors': 1}, {'n_neighbors': 3}, {'n_neighbors': 5}, {'n_neighbors': 7}], 'split0_test_score': array([1., 1., 1., 1.]), 'split1_test_score': array([0.91666667, 0.91666667, 1.        , 1.        ]), 'split2_test_score': array([1.        , 0.91666667, 1.        , 1.        ]), 'split3_test_score': array([0.91666667, 0.91666667, 0.91666667, 0.91666667]), 'split4_test_score': array([0.91666667, 1.        , 1.        , 1.        ]), 'split5_test_score': array([1., 1., 1., 1.]), 'split6_test_score': array([0.91666667, 0.91666667, 0.91666667, 0.91666667]), 'split7_test_score': array([0.83333333, 0.83333333, 0.91666667, 0.91666667]), 'split8_test_score': array([0.91666667, 0.91666667, 0.91666667, 0.91666667]), 'split9_test_score': array([1., 1., 1., 1.]), 'mean_test_score': array([0.94166667, 0.94166667, 0.96666667, 0.96666667]), 'std_test_score': array([0.05335937, 0.05335937, 0.04082483, 0.04082483]), 'rank_test_score': array([3, 3, 1, 1])}
```
相关阅读:
SpringBoot如何使用WebSocket实现前后端交互
 httpx的两个坑(httpx.ReadTimeout; SSL: CERTIFICATE_VERIFY_FAILED)
力扣744：寻找比目标字母大的最小字母； LeetCode744:Find Smallest Letter Greater Than Target
【案例】invalid primary checkpoint record
PG Wal 日志清理
 搭建Grafana+Prometheus监控平台
 一个简单的Dockerfile多阶段构建go项目
 gin框架中的c.Next()/c.Abort()
java中抽象类和接口的区别，什么时候用抽象类？什么时候用接口？
JetBrains激活和无限试用
原文地址：https://www.cnblogs.com/jsit-dj-it/p/13971280.html