• pandas 计算相关性系数


    相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。
    三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

    ->pandas 计算相关性系数
    dd["corr"] = dd["银行"].rolling(12).corr(dd["证券"])

    回溯日期为12,计算“银行”列与“证券”列数据的相关性系数。

     与之对应的excel的计算方法:

    B列和C列的相关性系数,同时回溯值是6(即分别有6个值会纳入计算)

    =CORREL(B3:B8,C3:C8)。但是需要注意的是excel的correl 函数把有空的日期上的值忽略了,就相当于把有空值的那一行删掉了。

    pandas的corr函数注意事项

    对于pandas.core.window.Rolling.corr 方法 也就是dd["corr"] = dd["银行"].rolling(12).corr(dd["证券"]) 这种用法

    This function uses Pearson’s definition of correlation。回溯期限内有空值时,无法计算相关性系数。

    对于pandas.DataFrame.corr 方法

    Compute pairwise correlation of columns, excluding NA/null values. 有空值时,不会计算相关性系数

    method {‘pearson’, ‘kendall’, ‘spearman’} ,method参数支持指定使用哪一种相关性系数。默认是pearson.

  • 相关阅读:
    进程的理论基础
    笔记
    ssh socketserver
    redis基本类型和操作
    centos redis 安装
    spring data jpa 查询部分字段
    spring data jpa 查询部分字段列名无效问题
    多个ajax执行混乱问题
    spring data jpa使用原生sql查询
    idea修改变量及其引用
  • 原文地址:https://www.cnblogs.com/howmanyk/p/13948636.html
Copyright © 2020-2023  润新知