python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷。它以NumPy为基础,并对于需要类似 for循环 的大量数据处理的问题有非常快捷的数组处理函数。
但是pandas最擅长的领域还是在处理表格型二维以上不同数据类型数据。
基本导入语法:
import pandas as pd
pandas标记缺失值或NA值为NaN。
有关python语法,数据分析简介,ipython,jupyter notebook和Numpy在我的CSDN博客: 计科李昂CSDN已经向大家讲解了。
一:pandas数据结构介绍
1.Series
Series是一种一维的数组型对象,它包含了一个值序列与数组标签索引。下面介绍有关的知识,代码是示例。
(1)生成Series对象
a = pd.Series() # 括号里传入索引对象
(2)获取值和索引
a.values # 获取值
a.index # 获取索引
(3)为序列创建索引序列
b = pd.Series([],index=[]) # 括号里传入索引对象和索引序列
(4)通过标签进行索引
c1['a'] # 普通索引
c2[[]] # 以序列标签进行索引
(5)使用NumPy的函数或NumPy风格操作
d[conditions] # 布尔值数组(用布尔值选择条件)进行过滤
d * n # 与标量相乘进行过滤
np.exp(n) # 应用数学函数进行过滤
(6)用in与not in 判断元素是否在Series对象中。
(7)可以构建字典为Series对象。
(8)可以将其他序列作为某个序列的标签。没有对应记为NaN
(9)用isnull与notnull数组函数检查标签是否缺失数据。
(10)赋值索引名和对象名
e.name # 赋值对象的名字
e.index # 赋值索引的名字