• 数据挖掘导论(完整版)


    一 分类算法

      KNN

        

      神经网络

        

      支持向量机

        适用于高维数据

      决策树

        gini系数

        熵系数

    二 聚类算法

      K-均值

        基于原型,划分类型

        不适用密度差别大,形状差异大

      DBSCAN

        基于密度

    三 关联方法

      apriori

        剪枝

        支持度

        置信度

      FR-growth

    四 组合方法

      bagging

        原理:有放回抽样,63%

        random forest

      

      boosting

        原理:迭代,修改权重

    五 数据预处理

      缺失值

      重复值

      异常值 -- 离群点

      特征提取(维归约)  -- PCA

      特征选择

      离散化&二元化  -- 某些分类算法的要求

      变量变换

        标准化 -- 某些算法的要求,KNN 

        简单函数变化(log)

    四 变量特征

      连续/离散

      定量/定性

      nominal 标称、ordinal  序数、internal 区间 、 ratio 比率

  • 相关阅读:
    Java nio Socket非阻塞模式
    Android执行文件apk的组成结构
    C++大会归来
    C++大会的入场卷已入手
    DVB vs. SVB+Shader & Instancing
    放一个半年前写的Python静态检查编译器
    GCC 4.1 Released
    C++大会后的一些感想
    多核技术来临?
    Notepad++ v3.3 released
  • 原文地址:https://www.cnblogs.com/654321cc/p/13084454.html
Copyright © 2020-2023  润新知