方法名 |
函数功能 |
sum() |
列的和 |
main() |
算数平均数 |
var() |
方差 |
std() |
标准差 |
corr() |
皮尔逊相关系数 |
cov() |
协方差矩阵 |
skew() |
三阶矩 偏度 |
kurt() |
四阶矩 峰度 |
describe() |
基本描述 |
协方差就是这样一种用来度量两个随机变量关系的统计量,协方差的结果有什么意义呢?如果结果为正值,则说明两个随机变量是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,线性不相关
皮尔逊系数是协方差和标准差的商
偏度(Skewness): 是对Sample构成的分布的对称性状况的描述
正态分布的 Skewness=0。如果 Skewness>0 代表波形有右侧长尾,如果 Skewness<0 代表波形有左侧长尾。
Kurtosis(峰度): 是对Sample构成的分布的峰值是否突兀或是平坦的描述
态分布的峰度为3。当时间序列的曲线峰值比正态分布的高时,峰度大于3(图像扁平);当比正态分布的低时,峰度小于3(图像更瘦)
属性规约
属性规约方法 |
方法描述 |
合并属性 |
旧属性合并 |
逐步向前选择 |
从一个空属性集开始,每次从当前属性集中选择最优的一项加入该属性集,直到满足一定阈值 |
逐步向后删除 |
从满属性集开始……删除 |
决策树归纳 |
对初始数据集归纳分类归纳,获得一个初始决策树,删除没出现在该决策树上的属性 |
主成分分析PCA |
用较少的变量解释原始数据的大部分变量 |
数据预处理
函数名 |
函数功能 |
所属库 |
interpolate |
一维、高维数据插值 |
scipy |
unique |
去除重复元素,他是np对象的方法名 |
pandas/numpy |
isnoll |
是否为空 |
pandas |
PCA |
主成分分析 |
scikit-learn |
random |
生成随机矩阵 |
numpy |