Python爬虫数据分析三剑客：Numpy、pandas、Matplotlib

Python爬虫数据分析三剑客：Numpy、pandas、Matplotlib
一 Numpy

二 pandas

pandas简介

pandas是建立在Numpy基础上的高效数据分析处理库，是Python的重要数据分析库。
pandas提供了众多的高级函数，极大地简化了数据处理的流程，尤其是被广泛地应用于金融领域的数据分析。

pandas主要包括的是：
- 带有标签的数据结构，主要包括序列（Series）和数据框（DataFrame）等
- 允许简单索引和多级索引
- 支持从Excel、CSV等文本格式中文导入数据，以Pytables/HDF5格式高效地读／写数据。
- 整合了对数据集的集合和转换功能
- 生成特定类型的数据
pandas的导入：
```
import pandas as pd
from pandas import Series,DataFrame
import numpy as np
```
pandas中的Series

Series是一种类似与一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签
1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建

默认索引为0到N-1的整数型索引
- 还可以通过设置index参数指定索引
```
#使用列表创建   Series是序列
Series(data=[1,2,3,4,5,6])

#结果
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
```
```
#通过numpy创建Series
Series(data=np.random.randint(1,40,size=(5,)),index=['a','d','f','g','t'],name='bobo')
```
(2) 由字典创建:不能在使用index.但是依然存在默认索引

注意：数据源必须为一维数据
```
dic = {
    '语文':150,
    '数学':150,
    '英语':150,
    '理综':150
}
s = Series(data=dic)

#查看时

s
```
2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的是一个Series类型）。

(1) 显式索引：
```
- 使用index中的元素作为索引值
- 使用s.loc[]（推荐）:注意，loc中括号中放置的一定是显示索引
```
注意，此时是闭区间

(2) 隐式索引：
```
- 使用整数作为索引值
- 使用.iloc[]（推荐）:iloc中的中括号中必须放置隐式索引
```
注意，此时是半开区间

列如：

切片：隐式索引切片和显示索引切片
- 显示索引切片:index和loc
- 隐式索引切片：整数索引值和iloc
3）Series的基本概念

可以把Series看成一个定长的有序字典

向Series增加一行：相当于给字典增加一组键值对

可以通过shape，size，index,values等得到series的属性

可以使用s.head(),tail()分别查看前n个和后n个值

对Series元素进行去重（使用unique）

两个Series进行相加
- 当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况
- 使得两个Series进行相加:索引与之对应的元素会进行算数运算,不对应的就补空
可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据

4）Series的运算

(1) + - * /

(2) add() sub() mul() div() : s1.add(s2,fill_value=0)

(3) Series之间的运算
- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN
pandas中的DataFrame

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values
1）DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引。

使用字典创建的DataFrame后，则columns参数将不可被使用。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

DataFrame的创建方式：
- 使用ndarray创建DataFrame
- 使用ndarray创建DataFrame：创建一个表格用于展示张三，李四，语文，数学，英语的成绩
```
dic = {
    '张三':[77,88,99],
    '李四':[67,68,69]
}
df = DataFrame(data=dic,index=['语文','数学','英语'])
df
```
  DataFrame属性：values、columns、index、shape
2）DataFrame的索引

(1) 对列进行索引
```
- 通过类似字典的方式  df['q']
- 通过属性的方式     df.q
```
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

修改索引
```
#修改列索引
df.columns = ['zhangsan','lisi']
df
```
(2) 对行进行索引
```
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
```
同样返回一个Series，index为原来的columns。

(3) 对元素索引的方法
```
- 使用列索引
- 使用行索引(iloc[3,1] or loc['C','q']) 行索引在前，列索引在后
```
切片：

【注意】直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片
3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：
- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN
处理丢失数据

有两种丢失数据：
- None
- np.nan(NaN)
1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

3. pandas中的None与NaN

1) pandas中None与np.nan都视作np.nan
```
#创建DataFrame
df = DataFrame(data=np.random.randint(10,50,size=(8,8)))
df
```
```
df.iloc[1,3]=None
df.iloc[2,2]=None
df.iloc[4,2]=None
df.iloc[6,7]=np.nan
```
2) pandas处理空值操作
- isnull()
- notnull()
- dropna(): 过滤丢失数据
- fillna(): 填充丢失数据
```
#一行中要是都有值  也就是 不是空的为True  
#一行 中只要有一个为none 为空则为False
df.notnull().all(axis=1) #1代表行    notnull(all)  isnull(any)


df.loc[df.notnull().all(axis=1)]   #去掉行有值为空的行
```
df.dropna() 可以选择过滤的是行还是列（默认为行）:axis中0表示行，1表示的列
```
df.dropna(axis=0)  #删除一行中有空值的行
```
3) 填充函数 Series/DataFrame
- fillna():value和method参数
  
  可以选择前向填充还是后向填充
```
df.fillna(method='ffill',axis=1) #向前填充 就是根据前条数据来填充空数据
```
  method 控制填充的方式 bfill（向后填充） ffill（向前填充）
1. 创建多层列索引

1) 隐式构造

最常见的方法是给DataFrame构造函数的index或者columns参数传递两个或更多的数组

2) 显示构造pd.MultiIndex.from_
- 使用数组
- 使用product
```
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

col=pd.MultiIndex.from_product([['qizhong','qimo'],
                                ['chinese','math']])

#创建DF对象
df = DataFrame(data=np.random.randint(60,120,size=(2,4)),index=['tom','jay'],
         columns=col)
df
```
二 pandas的拼接操作

pandas的拼接分为两种：
- 级联：pd.concat, pd.append
- 合并：pd.merge, pd.join
1. 使用pd.concat()级联
```
pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：

objs
axis=0
keys
join='outer' / 'inner':表示的是级联的方式，outer会将所有的项进行级联（忽略匹配和不匹配），而inner只会将匹配的项级联到一起，不匹配的不级联
ignore_index=False
```
1)匹配级联
```
df1 = DataFrame(data=np.random.randint(0,100,size=(3,3)),index=['a','b','c'],columns=['A','B','C'])
df2 = DataFrame(data=np.random.randint(0,100,size=(3,3)),index=['a','d','c'],columns=['A','d','C'])
pd.concat((df1,df1),axis=0,join='inner')
```
2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

有2种连接方式：
- 外连接：补NaN（默认模式）
- 内连接：只连接匹配的项
3) 使用df.append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

2. 使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共同的列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

参数：
- how：out取并集 inner取交集
- on：当有多列相同的时候，可以使用on来指定使用那一列进行合并，on的值为一个列表
1) 一对一合并

将df1与df2合并
```
df1 = DataFrame({'employee':['Bob','Jake','Lisa'],
                'group':['Accounting','Engineering','Engineering'],
                })
df1


df2 = DataFrame({'employee':['Lisa','Bob','Jake'],
                'hire_date':[2004,2008,2012],
                })
df2


pd.merge(df1,df2,how='outer')
```
2) 多对一合并
```
df3 = DataFrame({
    'employee':['Lisa','Jake'],
    'group':['Accounting','Engineering'],
    'hire_date':[2004,2016]})
df3


df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
                       'supervisor':['Carly','Guido','Steve']
                })
df4


pd.merge(df3,df4,how='outer')
```
3)多对多合并
```
df5 = DataFrame({'employee':['Bob','Jake','Lisa'],
                 'group':['Accounting','Engineering','Engineering']})
df5

df6 = DataFrame({'group':['Engineering','Engineering','HR'],
                'supervisor':['Carly','Guido','Steve']
                })
df6
pd.merge(df5,df6,how='outer')
```
4) key的规范化
- 当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名
- 当两张表没有可进行连接的列时，可使用left_on和right_on手动指定merge中左右两边的哪一列列作为连接的列
```
df1 = DataFrame({'employee':['Jack',"Summer","Steve"],
                 'group':['Accounting','Finance','Marketing']})

df2 = DataFrame({'employee':['Jack','Bob',"Jake"],
                 'hire_date':[2003,2009,2012],
                'group':['Accounting','sell','ceo']})
```
5) 内合并与外合并:out取并集 inner取交集
- 内合并：只保留两者都有的key（默认模式）
- 外合并 how='outer'：补NaN
三 Matplotlib

Matplotlib是一个主要用于绘制二维图形的Python库

-能够绘制出高质量的图形，并且图形里面的镶嵌的文本必需足够美观

-能够和Tex文档一起输出

-能够嵌入到GUI(图形用户界面)应用程序中

Matplotlib中的基本图表包括的元素
- x轴和y轴 axis
  水平和垂直的轴线
- x轴和y轴刻度 tick
  刻度标示坐标轴的分隔，包括最小刻度和最大刻度
- x轴和y轴刻度标签 tick label
  表示特定坐标轴的值
- 绘图区域（坐标系） axes
  实际绘图的区域
- 坐标系标题 title
  实际绘图的区域
- 轴标签 xlabel ylabel
  实际绘图的区域
matplotlib的导入：
```
import matplotlib.pyplot as plt
```
包含单条曲线的图
- 注意：y,x轴的值必须为数字
简单的列子：
```
x=[1,2,3,4,5]
y=[2,4,6,8,10]
plt.plot(x,y)
```
- 绘制抛物线
```
x = np.linspace(-np.pi,np.pi,num=20)
y = x**2
plt.plot(x,y)
```
- 绘制正弦曲线图
```
x
y = np.sin(x)
plt.plot(x,y)
```
包含多个曲线的图

1、连续调用多次plot函数
```
plt.plot(x,y)
plt.plot(x+2,y+3)
```
2、也可以在一个plot函数中传入多对X,Y值，在一个图中绘制多个曲线
```
plt.plot(x,y,x+1,y-2)
```
将多个曲线图绘制在一个table区域中：对象形式创建表图
- a=plt.subplot（row,col,loc）创建曲线图
- a.plot(x,y) 绘制曲线图
```
ax1 = plt.subplot(221)
ax1.plot(x,y)

ax2 = plt.subplot(2,2,2)
ax2.plot(x,y)

ax3 = plt.subplot(2,2,3)
ax3.plot(x,y)

ax4 = plt.subplot(2,2,4)
ax4.plot(x,y)
```
网格线 plt.gride(XXX)

参数：
```
- axis
- color:支持十六进制颜色
- linestyle: --  -.  :
- alpha
```
```
plt.plot(x,y)
plt.grid(axis='both',c='blue')
```
绘制一个正弦曲线图，并设置网格
```
plt.plot(x,y,c='red',alpha=0.7)
```
坐标轴界限

axis方法:设置x，y轴刻度值的范围

plt.axis([xmin,xmax,ymin,ymax])
```
plt.plot(x,y)
plt.axis([-6,6,-2,2])
#plt.axis('off')
plt.axis('off')
关闭坐标轴
```
相关阅读:
QT5.4 vs2013静态加载插件的sqlite静态编译
 四个漂亮的CSS样式表
 程序猿写的程序将如何打包成安装包（最简单）
cocos2d的-X- luaproject的LUA脚本加密
 【【分享】深入浅出WPF全系列教程及源码】
C#的StringBuilder 以及string字符串拼接的效率对照
 【Android中Broadcast Receiver组件具体解释】
【蜗牛—漫漫IT路之大学篇(九) 】
【分布式存储系统sheepdog 】
C#异步调用
原文地址：https://www.cnblogs.com/mlhz/p/10492586.html

Python爬虫数据分析三剑客：Numpy、pandas、Matplotlib

一 Numpy

二 pandas

pandas简介

pandas主要包括的是：

pandas的导入：

pandas中的Series

1）Series的创建

2）Series的索引和切片

切片：隐式索引切片和显示索引切片

3）Series的基本概念

4）Series的运算

pandas中的DataFrame

1）DataFrame的创建

DataFrame的创建方式：

2）DataFrame的索引

(1) 对列进行索引

修改索引

(2) 对行进行索引

(3) 对元素索引的方法

切片：

3）DataFrame的运算

处理丢失数据

1. None

2. np.nan（NaN）

3. pandas中的None与NaN

1) pandas中None与np.nan都视作np.nan

2) pandas处理空值操作

notnull()

3) 填充函数 Series/DataFrame

1. 创建多层列索引

1) 隐式构造

2) 显示构造pd.MultiIndex.from_

二 pandas的拼接操作

1. 使用pd.concat()级联

1)匹配级联

2) 不匹配级联

3) 使用df.append()函数添加

2. 使用pd.merge()合并

1) 一对一合并

2) 多对一合并

3)多对多合并

4) key的规范化

5) 内合并与外合并:out取并集 inner取交集

三 Matplotlib

Matplotlib是一个主要用于绘制二维图形的Python库

matplotlib的导入：

包含单条曲线的图

包含多个曲线的图

将多个曲线图绘制在一个table区域中：对象形式创建表图

网格线 plt.gride(XXX)

坐标轴界限

axis方法:设置x，y轴刻度值的范围

`notnull()`