• 数学统计基础-概率论与数理统计


     

    排列数:

     

     组合数:

     

     

     关联规则:

     1、联合概率和条件概率

    联合概率:P(AB)两个概率同时发生的概率

     

     2、关联规则算法

     

     数据分析精选

    这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的大数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?
    关联规则分析
    关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,

    找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

     3、全概率公式

    条件概率、全概率=贝叶斯公式

     

     4、贝叶斯公式

     

     P(B)=3/5 * 2/4  +  2/5 * 3/4 =3/5

    2/4=P(B|A) 在A发生的条件下B发生 (先因后果)

    P(A/B)在B发生的条件下B发生 (先果后因)

    贝叶斯公式及例题

     

    14个数据,Y:9个买,X:5个不买

    A对应age

    B对应 学student

     判断是否为学生预测购买的概率

     三、一维随机变量及其分布

    数据的分散情况,分布在各未知的概率

     

    区间的每个值都可以取到-----连续

    只能取区间的部分点------离散

    3.1离散型随机变量及其分布

     

     Bernoulli分布

     

     Poisson分布--

    当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。

    通俗理解泊松分布

     

     

    四、连续型随机变量及其概率密度

     

     

    均匀分布

     

    指数分布

    指数分布公式的含义是什么?

    正态分布

    标准正态分布:
    期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。

     用软件处理小批量数据 例如500M的SPSS ,电脑就带不动,必须用代码Python

    spss侧重于假设和检验

    python侧重于大数据的 统计推断 

    泊松分布表示的是事件发生的次数,“次数”这个是离散变量,所以泊松分布是离散随机变量的分布。

    指数分布是两件事情发生的平均间隔时间,“时间”是连续变量,所以指数分布是一种连续随机变量的分布。

    可以用等公交车作为例子:

    某个公交站台一个小时内出现了的公交车的数量 就用泊松分布来表示

    某个公交站台任意两辆公交车出现的间隔时间 就用指数分布来表示

     

     P(X<2)-P(X<1)

    最小二乘法

    做预测,做回归

    最小二乘法,所谓“二乘”就是平方的意思

     

    极大似然方法

    极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
    
    换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

    五、数值特征

     5.1数学期望

     

     体现数据的集中性

     随机变量的数字特征

     5.2 方差

     体现数据的波动情况、越大说明波动越大

     

    如何通俗地理解协方差和相关系数?

    协方差代表了两个变量之间的是否同时偏离均值。

     

     

     5.3 大数定律和中心极限定理

     大数定律:当次数足够多可以用频率代替概率

     

    简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望)

    中心极限定律

    而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,就像这个图:

     抽样分布

    抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息。

    除了常见的正态分布之外,还有卡方分布、t分布和F分布为最常见的描述抽样分布的分布函数。

    这几个分布函数在数理统计中也非常有名。我们常说的卡方检验、t检验和F检验就跟这三个分布有关。
    下面分别从定义、性质、函数图像和分位数等方面介绍三大分布。

     

  • 相关阅读:
    2.6
    20、算法的复杂度
    SVN的部署及分支等方法
    19、数据库设计的三大范式
    2.ViewBag、ViewData、TempData之间的区别
    1、MVC和EF中的 Model First 和 Code First
    19、lambda表达式树
    12、c#中事务及回滚
    11、Linq的使用
    18、(番外)匿名方法+lambda表达式
  • 原文地址:https://www.cnblogs.com/foremostxl/p/11616066.html
Copyright © 2020-2023  润新知