• 模块简介与matplotlib基础


    模块简介与matplotlib基础

    1、基本概念

    1.1数据分析

      对已知的数据进行分析,提取出一些有价值的信息。

    1.2数据挖掘

      对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息。

    1.3数据挖掘过程

      定义目标

      获取数据(爬虫采集或下载统计网站发布的数据)

      数据探索

      数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)

      数据建模(分类、聚类、关联、预测)

      模型评价与发布

    1.4模块简介

      numpy可以高效的处理数据、提供数组支持

      pandas主要用于数据探索和数据分析

      matplotlib作图模块,解决可视化问题

      scipy主要进行数据计算,同时支持矩阵运算,提供很多高等处理功能,比如积分、傅里叶变化等

      statsnodels用于统计分析

      Gensim文本挖掘

      sklearn、keras前者机器学习,后者深度学习

    1.5模块基本操作

      '''numpy'''

      import numpy

      #创建一维数组格式

      #numpy.array([元素1,元素2,...,元素n])

      x=numpy.array(["a","b","c"])

     

      #创建二维数据格式

      #numpy.array([[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],...,[元素1,元素2,...,元素n]])

      y=numpy.array([[1,2,3],[4,5,6],[7,8,9]])

     

      #排序sort

      x.sort()

      y.sort()

     

      #取最大值和最小值

      y1=y.max()

      y2=y.min()

     

      #切片

      #数组[起始下标:最终下标+1]

      x[1:3]#取得就是数组的1-2,相当于取得是左闭右开区间的。如果右边不写则取到最后,若左边不写,则从最开始取

     

      '''pandas'''

      import pandas   #若import pandas as pda,则之后可以使用pd代替pandas

      '''

      Series #index索引

      DataFrame

     

      '''

      a=pandas.Series([8,9,2,1])

      b=pandas.Series([8,9,2,1],index=[1,2,3,4])#index里面的值可以自由指定

      c=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]])

      d=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]],columns=["one","two","three","four"])

      e=pandas.DataFrame({

        "one":3, #生成3个3,自动补全

        "two":[6,2,3],

        "three":list(str(982))  #生成9、8、2

      })

      d.head()#头部数据,默认前五行

      #d.head(行数)

      d.tail()#尾部数据,默认后五行

      #d.tail(行数)

      d.describe()#展示数据统计信息

      d.T#对d转置

    1.6数据导入

    1.6.1导入csv数据

      csv是一种常见的数据存储格式,可以使用pandas导入csv数据

      import pandas as pd

      i=pd.read_csv("文件地址")

      i.sort_value(by="某列的第一个数据") #表示按照某列排序

      j=pd.read_excel(文件地址导入Excel文件

    1.6.2导入HTML数据

      使用pandas可以直接从HTML网页中加载对应table表格中的数据

      l=pd.read_html("网址或者本地网页的地址")

    1.6.3导入TXT文本数据

      m=pd.read_table("TXT文件地址")

     

    2、折线图、散点图和直方图的绘制

      折线图和散点图用plot,直方图用hist

       下面是直方图的绘制:

     

     

  • 相关阅读:
    web.xml文件详解
    SQLSERVER dbo解释
    sqlserver BULK INSERT
    google 基站定位api
    Sqlserver中Select和Set区别
    SQL Server优化50法
    ibatis常用16条SQL
    面向对象 -- 三大特性之继承 补充 抽象类 接口类
    面向对象 -- 三大特性之继承
    面向对象 -- 类的组合
  • 原文地址:https://www.cnblogs.com/whliscoming/p/10833423.html
Copyright © 2020-2023  润新知