算术运算
算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel 中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。
比较运算
比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。
在Excel中列与列之间的比较运算和Python中的方法一致,例子如下图所示。
下面是一些Python中列与列之间比较的例子。
汇总运算
上面讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是多少行就会返回多少个结果。
而汇总运算是将数据进行汇总返回一个汇总以后的结果值。
count非空值计数
非空值计数就是计算某个区域中非空(单元格)数值的个数。
在Excel中counta()函数用于计算某个区域中非空单元格的个数。与counta()函数类似的一个函数是count()函数,它用于计算某个区域中含有数字的单元格的个数。
在 Python 中,直接在整个数据表上调用 count()函数,返回的结果为该数据表中每列的非空值的个数,具体实现如下所示。
count()函数默认是求取每一列的非空数值的个数,可以通过修改axis参数让其等于1,来求取每一行的非空数值的个数。
也可以把某一列或者某一行索引出来,单独查看这一列或这一行的非空值个数。
sum求和
求和就是对某一区域中的所有数值进行加和操作。
在 Excel 中要求取某一区域的和,直接在 sum()函数后面的括号中指明要求和的区域,即要对哪些值进行求和操作即可。例子如下所示。
在Python中,直接在整个数据表上调用sum()函数,返回的是该数据表每一列的求和结果,例子如下所示。
sum()函数默认对每一列进行求和,可通过修改axis参数,让其等于1,来对每一行的数值进行求和操作。
也可以把某一列或者某一行索引出来,单独对这一列或这一行数据进行求和操作。
mean求均值
max求最大值
min求最小值
median求中位数
mode求众数
var求方差
std求标准差
quantile求分位数
分位数是比中位数更加详细的基于位置的指标,分位数主要有四分之一分位数,四分之二分位数,四分之三分位数,而四分之二分位数就是中位数。
在Excel中求分位数用的是percentile()函数,示例如下:
在Python中求分位数用的是quantile()函数,要在quantile后的括号中指明要求取的分位数值,quantile()函数与其他函数的使用规则相同。
相关性运算
相关性常用来衡量两个事物之间的相关程度,比如我们前面举的例子:啤酒与尿布二者之间的相关性很强。我们一般用相关系数来衡量两者的相关程度,所以相关性计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。
在Excel中求取相关系数用的是correl()函数,示例如下:
在Python中求取相关系数用的是corr()函数,示例如下:
还可以利用 corr()函数求取整个 DataFrame 表中各字段两两之间的相关性,示例如下
小结
算术运算
列与列之间 列与一个数 + - * / %
比较运算
列与列之间 列与一个数 > < >= <= !=
汇总运算 从numpy来的 axis=0 列(默认) axis=1 行
非空计数 count()
求和 sum()
最大值 max()
最小值 min()
平均值 mean()
众数 mode()
中位数 median()
方差 var()
标准差 std()
分位数 quantile(分位点)
相关运算
corr()