• sklearn中的数据集


    具体看原文:点击这里

    datasets数据集

    ​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:

      1. 玩具数据集
      2. 真实世界中的数据集
      3. 样本生成器
      4. 样本图片
      5. svmlight或libsvm格式的数据
      6. 下载的数据
      7. 从外部加载的数据
        用的比较多的就是1和3,这里进行主要介绍,其他的会进行简单介绍,但是不建议使用。

    玩具数据集

    ​ scikit-learn 内置有一些小型标准数据集,不需要从某个外部网站下载任何文件,用datasets.load_xx()加载。

    (一) 波士顿房价

    ​ 统计了波士顿506处房屋的13种不同特征( 包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等 )以及房屋的价格,适用于回归任务。

    from sklearn import datasets  # 导入库
    
    boston = datasets.load_boston()  # 导入波士顿房价数据
    print(boston.keys())  # 查看键(属性)     ['data','target','feature_names','DESCR', 'filename'] 
    print(boston.data.shape,boston.target.shape)  # 查看数据的形状 (506, 13) (506,)
    print(boston.feature_names)  # 查看有哪些特征 这里共13种
    print(boston.DESCR)  # described 描述这个数据集的信息 
    print(boston.filename)  # 文件路径 
    View Code

    (二) 鸢尾花

    ​ 这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于花外形的数据 ,适用于分类任务。

    from sklearn import datasets  # 导入库
    
    iris = datasets.load_iris()  # 导入鸢尾花数据
    print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
    print(iris.feature_names)  # [花萼长,花萼宽,花瓣长,花瓣宽]
    View Code

    ​ 还可以在sklearndatasets_base.py文件中查看信息:3类,每类50个,共150个样本,维度(特征)为4,特征的数值是真实的,并且都是正数。

    (三) 手写数字

    ​ 共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值, target值是0-9,适用于分类任务。

  • 相关阅读:
    刚体动力学
    碰撞检测系统
    动画系统II
    动画系统
    Game Develop Books
    光照技术
    LR参数组取值操作方法
    loadrunner测试ajax框架
    ​Web(click and script) 与 Web(HTTP/HTML)协议区别
    性能测试常用的linux命令
  • 原文地址:https://www.cnblogs.com/2020zxc/p/13449038.html
Copyright © 2020-2023  润新知