• 1.1.3:sklearn库中的标准数据集及基本功能


    sklearn的数据集种类:

    • 自带的小数据集(packaged dataset):sklearn.datasets.load_<name>
    • 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name>
    • 计算机生成的数据集(Generated Dataset):sklearn.datasets.make_<name>
    • svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)
    • 从买了data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

    sklearn自带的小数据集

    波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋
    周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房
    间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿
    房价数据集能够应用到回归问题上。
     
     

    以波士顿房价为例:

    使用sklearn.datasets.load_boston即可加载相关数据集
    其重要参数为:
    return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)
     
    示例1:
    >>> from sklearn.datasets import load_boston
    >>> boston = load_boston()
    >>> print(boston.data.shape)
    (506, 13)

    示例2:

    >>> from sklearn.datasets import load_boston
    >>> data, target = load_boston(return_X_y=True)
    >>> print(data.shape)
    (506, 13)
    >>> print(target.shape)
    (506)
    

    图像展示

    sklearn库的基本功能

    sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、
    聚类任务、降维任务、模型选择以及数据的预处理(本专题主要介绍前四部分内容)

    分类任务

    回归任务

    聚类任务

    降维任务

  • 相关阅读:
    轻松学习之Linux教程二 一览纵山小:Linux操作系统具体解释
    SpringMVC经典系列-15对SpringMVC的总结---【LinusZhu】
    Testng 的数据源 驱动測试 代码与配置
    怎样统计分析CSDN博客流量
    python小知识点
    Javascript 笔记与总结(2-10)删除节点,创建节点
    C#6.0语言规范(十四) 枚举
    C#6.0语言规范(十三) 接口
    C#6.0语言规范(十二) 数组
    C#6.0语言规范(十一) 结构
  • 原文地址:https://www.cnblogs.com/nishida-rin/p/12253019.html
Copyright © 2020-2023  润新知