变量的度量类型(名义,等级,连续)
名义:性别,民族等
等级:年级,有等级差别的
连续:肯定是数值型的,差值相等
连续变量可以通过分组的方式转化成等级变量来用,有利于消除噪音。
名义变量只有频次和百分比两个统计量
名义变量和等级变量统称分类变量
连续变量
对称用均值,偏移用中位数
数学符号读作c阁马
这里面上分类点和下分位点都是奇数个取中间数,偶数个取中间2个数的平均数
IQR的计算方式为上分位点减去下分位点。
盒须图中间的线为中位数,须子上到最大值下到最小值,但是最大最小值在1.5IQR范围以内,超过则为离群值了。
右偏分布的图是最常见的
可以得到相关方法的介绍
多加一列数据,为地域中文形式。
求平均数,中位数,标准差,偏移度,用agg取多个量,quantile是分段位置的数,0.5是中位数
画直方图
关于透视表
堆叠柱形图
胖瘦柱形图
这个函数为自定的
分类盒须图
import seaborn as sns
双轴图