• sklearn.datasets中的数据集案例(集合)


     一、sklearn.datasets数据集介绍

          机器学习sklearn中的datasets模块提供了一些自带的小数据集。数据集是一个类似字典的对象,特征数据存储在 .data 成员中,它是 n_samples, n_features 数组。 在监督问题的情况下,一个或多个响应变量存储在 .target中,小白在入门时可以利用这些小数据集做一些简单的算法模型,初步感受下sklearn,随后再逐步深入。

         1、常见的小数据集:

            鸢尾花:load_iris()

            乳腺癌:load_breast_cancer()

            手写数字:load_digits()

            糖尿病:load_diabetes()

            波士顿房价:load_biston()

            体能训练:load_linnerud()

            图像数据:load_sample_image(name)

        2、数据集引入流程:

            

    二、利用数据集构建算法模型

          1、使用波士顿房价数据做线性回归,预测房价

           

           

            

          2、使用乳腺癌数据集做逻辑回归,预测癌症

            

             

             

           3、使用鸢尾花数据集进行分类模型(KNN)构建

                 (1)数据集特征

                  

                 (2)代码

                

                 

                   

               

                             

              

                              

    三、算法深入

             利用这些小数据集敲几个模型之后,大概懂个所以然,然后深入了解每个算法的原理,公式推导,相关代码实现以及实际应用场景,知其然便会是一个很明朗的过程啦~

             至于算法深入部分,待续。。。

           

            

        

  • 相关阅读:
    Hash(学习笔记)
    [POI2012]OKR-A Horrible Poe(hash+线性筛素数)
    质数(学习笔记)
    [AHOI2014/JSOI2014]宅男计划(贪心+三分)
    [HEOI2015]定价(贪心+数学)
    Trie字典树(学习笔记)
    CF258D. Little Elephant and Broken Sorting(DP+概率期望)
    矩阵(01背包+滚动数组)
    [2015北大自招夏令营]产品排序(区间DP)
    HTML
  • 原文地址:https://www.cnblogs.com/kkdaddd/p/8018988.html
Copyright © 2020-2023  润新知