• 斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)


     python信用评分卡建模(附代码,博主录制)

    pearsonr皮尔森共线系数要求:

    1.每个变量数据集符合正态分布

    2. p值代表极端值出现概率,样本量小时p值不可靠,但样本量大于500时,p值具有很大参考价值。

    https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html

    https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html

    http://www.360doc.com/content/08/1228/23/50235_2219531.shtml

    http://blog.csdn.net/lhkaikai/article/details/37352587

    斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。

    公式:

    其中:di=xi-yi表示两个排序之间的差值;

                n:表示样本的大小,即机器学习算法的数量;

                   
    解:此题被试5人,不知是否为正态分布,所以用斯皮尔曼等级相关解题。其中,x为听觉反应时间按大小排序,y为视觉反应时间按大小排序。d=x-y。
    将n=5,∑d^2=6 带入公式 1-[6·∑(di)^2 / (n^3 - n)]
    得:ρ=0.7
    答:这5人的视听反应时等级相关系数为0.7,属于高度相关。

    优点

    适用范围广泛,斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

    缺点

    一组能用积差相关计算的数据,如果改用等级相关,精确度会低于积差相关。凡符合积差相关条件的,最好不要用等级相关计算。


    积差相关



    积差相关又称积距相关,是当两个变量都是正态连续变量,两者之间呈线性关系时,表示这两个变量之间的相关
    使用条件
    积差相关的使用条件是:
    1、两变量为连续变量,即变量数值取自等距或等比量表。
    2、两变量呈线性关系,这可由相关的散布图的形状来描述。
    3、两变量为正态分布,或接近正态分布,至少是单峰对称的分布。
    4、必须是成对数据,每对数据之间相互独立。
    5、要排除共同因素的影响。如果两个变量都随着一个共同因素在变化,即使算出的积差相关系数很高,也难以判断两个变量之间存在高度相关。
    6、样本容量大于30,计算出的积差相关系数才有意义。

     

     

    python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

     

     

    微信扫二维码,免费学习更多python资源

     

     

     

     

  • 相关阅读:
    python下载.msg文件的附件
    python如何提取word内的图片
    python如何实现对word内段落文本及表格的读取
    python中使用to_excel时如何不覆盖原有数据来新建sheet页
    用python获取表格中的节假日起始日期
    如何利用python的xlrd模块读取日期格式的Excel
    HTML简介
    前端开发工程师
    测试工程师养成记
    电子沙盘
  • 原文地址:https://www.cnblogs.com/webRobot/p/7039534.html
Copyright © 2020-2023  润新知