• 四,专著研读(K-近邻算法)


    四,专著研读(K-近邻算法)

    • K-近邻算法
      有监督学习距离类模型,
    • k-近邻算法步骤
      • 计算已知类别数据集中的点与当前点之间的距离
      • 按照距离递增的次序进行排序
      • 选取与当前点距离最小的K个点
      • 确定前k个点出现频率
      • 返回前k个点出现频率最高的类别作为当前点的预测类别
    • 欧氏距离

      (distleft ( x,y ight )=sqrt{left ( x_{1}-y_{1} ight )^{2}+left ( x_{2}-y_{2} ight )^{2}+...+left ( x_{n}-y_{n} ight )^{2}}=sqrt{sum_{i=1}^{n}left ( x_{i}-y_{i} ight )^{2}})


    • K的选择对分类器的效果有决定性的作用,
    • 数据归一化处理
      0-1标准化,Z-score标准化,Sigmoid压缩法等,其中最简单的是0-1标准化。

      (x_{normalization}=frac{x-Min}{Max-Min})


    • K-近邻
      • 数据输入:特征空间中至少包含k个训练样本(k>=1),特征空间中各个特征的量纲需要统一,若不统一则需要进行归一化处理,自定义超参数k(k>=1)
      • 模型输出:在KNN分类中,输出是标签中的某个类别,在KNN回归中,输出是对象的属性值,该值是距离输入的数据最近的k个训练样本标签的平均值。


    • 优点
      • 容易理解,精度高,既可以用来做分类也可以用来做回归
      • 可用于数值型数据,和离散型数据
      • 无数据输入假定
      • 适合对稀有数据进行分类
    • 缺点
      • 计算复杂性高,空间复杂性高
      • 计算量大
      • 样本不平衡问题
      • 可理解性较差
  • 相关阅读:
    数学函数,字符串函数,聚合函数
    javascript大神修炼记(7)——OOP思想(多态)
    Join的表顺序
    java web 基础
    LVS入门
    Eclipse 一直提示 loading descriptor for 的解决方法
    nginx的配置总结
    nginx入门(安装,启动,关闭,信号量控制)
    如何正大光明的使用 google 进行搜索
    npm报错Error: ENOENT, stat 'D:NodeLearn ode-global'
  • 原文地址:https://www.cnblogs.com/zaw-315/p/11251929.html
Copyright © 2020-2023  润新知