• Scikit-Learn机器学习入门


    现在最常用的数据分析的编程语言为R和Python。每种语言都有自己的特点,Python因为Scikit-Learn库赢得了优势。Scikit-Learn有完整的文档,并实现很多机器学习算法,而每种算法使用的接口几乎相同,可以非常快的测试其它学习算法。

    Pandas一般和Scikit-Learn配合使用,它是基于Numpy构建的含有更高级数据结构和工具的数据统计工具,可以把它当成excel。

    加载数据

    首先把数据加载到内存。下载UCI数据集:

    数据标准化

    在开始应用学习算法之前,应首先对数据执行标准化,这是为了确保特征值的范围在0-1。对数据进行预处理:

    分类

    ExtraTreesClassifier(基于树):

    LogisticRegression:

    机器学习算法

    Logistic regression

    通常用来解决分类问题(binary),但是也支持多个分类。这个算法会给出属于某一分类的概率:

    Screen Shot 2016-02-19 at 16.48.07

    朴素贝叶斯-Naive Bayes

    这也是广为人知的机器学习算法,用来学习数据分布的密度,在多分类问题中可以提供高质量的预测结果。

    Screen Shot 2016-02-19 at 16.53.38

    KNN算法(K-Nearest Neighbours)

    它通常用在更复杂分类算法的一部分,它在回归问题中可以提供很好的结果。

    Screen Shot 2016-02-19 at 16.58.05

    决策树-Decision Trees

    能很好的处理回归和分类问题。

    Screen Shot 2016-02-19 at 17.01.29

    支持向量机-Support Vector Machines

    Screen Shot 2016-02-19 at 17.04.26

    Scikit-Learn还提供了一堆更复杂的算法,包括clustering,Bagging 和 Boosting。

  • 相关阅读:
    k3sk8s集群-node节点设置不可调度或者删除node节点
    CentOS8防暴力破解fail2ban
    网站挂马情况处理
    linux给普通用户赋予sudo权限免密码
    Mockito (二十四)
    Mockito (二十三)
    Mockito (二十二)
    Mockito (二十一)
    Mockito (二十)
    Mockito (十九)
  • 原文地址:https://www.cnblogs.com/gejuncheng/p/8127446.html
Copyright © 2020-2023  润新知