• 统计学常见分布、概念


    非常有必要搞清楚统计学种一些常用的分布!!!

    离散型随机变量分布

    1.两点分布/伯努利分布

    伯努利分布是二项分布在n=1时的特例。一次随机试验,成功概率为p,失败概率为q=1-p。

    伯努利分布

    2.二项分布

    1502348320(1)

    二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

    二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。

    二项分布

    3.超几何分布

    对N件产品(其中M件次品)进行不放回抽样,在n次抽样种抽到次品数X,服从超几何分布。

    超几何分布

    4.几何分布

    X记首次成功的概率,服从几何分布。

    5.负二项分布

    X记第k次成功时总的实验次数,当k=1时,为几何分布。

    “二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到成功r次时即终止的独立试验中,失败次数k的分布

    image

    负二项分布

    Negative binomial distribution

    负二项回归模型的统计推断

    例子:

    Pat is required to sell candy bars to raise money for the 6th grade field trip. There are thirty houses in the neighborhood, and Pat is not supposed to return home until five candy bars have been sold. So the child goes door to door, selling candy bars. At each house, there is a 0.4 probability of selling one candy bar and a 0.6 probability of selling nothing.

    What's the probability of selling the last candy bar at the nth house?

    6.泊松分布

    有些事件,我们可以预估这些事件的总数,但是没法知道具体的发生时间。

    如:已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

    如:已知所有cell中reads的总数,相当于知道均值,问下一个细胞的reads数是多少。

    这些从常理上看,我们会归为均匀分布,但现实就是泊松分布。

    泊松分布和指数分布:10分钟教程

    如何理解泊松分布和泊松过程

    连续型随机变量分布

    1.均匀分布

    2.指数分布

    指数分布是事件的时间间隔的概率。

    3.正态分布

    反应误差的最重要的分布,确定了均值和标准差就能确定一种正态分布。

    参考:

    伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

    负二项分布为什么叫这个名字?“负”从何而来?

    数字特征

    1.期望

    相当于平均值

    2.方差

    就是方差

    3.协方差

    所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差

    cov(X, Y) = E(X-EX)(Y-EY)。

    当 cov(X, Y)>0时,表明 X与Y 正相关;

    当 cov(X, Y)<0时,表明X与Y负相关;

    当 cov(X, Y)=0时,表明X与Y不相关。

    这就是协方差的意义。

    终于明白协方差的意义了

    4.相关系数

    image

    翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。

    所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

    如何通俗易懂地解释「协方差」与「相关系数」的概念?

    5.矩

    原点矩

    中心矩

    其他数字特征

    中位数

    分位数

    众数

    变异系数:将离散程度标准化,等于均值除以方差

    偏态系数

    峰态系数

    大数定律

    如果实验次数足够大,样本均值就会趋近于总体的期望

    好吧,学概率的时候,我们总有一种潜在的潜在的观念   

    ——当数很大的时候平均值,就是期望值。   

    比如,我们投骰子,如果我们投100次,求出现的数的平均,我们觉得会差不多是(1+6)/2=3.5 因为我们按照期望计算,算出来就是3.5。   

    但是,这是我们一个假定,我们还需要论证,为什么当数很大的时候,平均值就是期望值呢?  这就是大数定理证明了的了。   

    中心极限定理

    大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的时候,就越接近正态分布)。而这个定理amazing的地方在于,无论是什么分布的随机变量,都满足这个定理。

    怎样理解和区分中心极限定理与大数定律?

  • 相关阅读:
    python数据类型三(字典)
    python数据类型二(列表和元组)
    python数据类型一(重点是字符串的各种操作)
    python基础二
    jquery validate学习心得
    Block 朴实理解
    Block 使用场景
    Block 进阶
    MD5加密
    SQL语句中 chinese_prc_CS_AI_WS 以及replace用法
  • 原文地址:https://www.cnblogs.com/leezx/p/7340045.html
Copyright © 2020-2023  润新知