• 统计方法的应用


    1,卡方分布

    卡方分布用于检验观察值的频率和实际值得频率之间是否存在差异。

     如果观察值Oi,i=1,2,3...(实验中获得的值),  期望得到的值Ei,i=1,2,3...(理论值)

       x2 = E(i=1,2...)(Oi-Ei)2/Ei

    拒绝无效假设的条件是  X2 >X2 (df=n-1) (卡方检验的关键值),者说明观测值与理论值之间有差异。


    R代码:

     2,相关分析

    相关分析是一种非确定性的关系,没有精确到一个变量去精确的确定另一个变量。如身高和体重的关系

    两个变量之间的相关关系可用相关系数表示。相关系数为正表示正相关,为负表示负相关,为0表示两个变量之间相互独立没有相关性。

     3,回归分析

    1,回归分析用最小二乘方法确定两个变量之间的关系

    2,用最小二乘估计y

    代码

    3,一元线性回归和多元线性回归

    线性回归指的是自变量和因变量之间存在着线性相关,我们通过建立线性回归模型,来确定自变量是怎样和因变量相关的

    step1:确定哪些可能的变量与因变量相关   用R中的lm()函数,用summary()查看该模型各个自变量之间的p值是否相关和R2值(R2值越接近1,说明模型拟合度越好)

    step2:如果step1所了解到该模型不是很好,可以通过step()函数做逐步回归(向前逐步回归,向后逐步回归)   或者是增加自变量中各种可能的交叉变量

    (进行逐步回归的时候,主要看AIC值,AIC值越小,是模型拟合优良性之一的一个表现)

    step3:最后所得到的模型R2值接近1,每个参数估计值的p值显著,

    R语言做算法,并行运算博客:http://blog.csdn.net/sinat_26917383/article/details/52719247

    4.逻辑回归

    一、逻辑回归LR介绍

    首先要搞清楚当你的目标变量是分类变量时,才会考虑逻辑回归,并且主要用于两分类问题。举例来说医生希望通过肿瘤的大小x1、长度x2、种类x3等等特征来判断病人的这个肿瘤是恶性肿瘤还是良性肿瘤,这时目标变量y就是分类变量(0良性肿瘤,1恶性肿瘤)。显然我们希望像保留像线性回归一样可以通过一些列x与y之间的线性关系来进行预测,但是此时由于Y是分类变量,它的取值只能是0,1,或者0,1,2等等,不可能是负无穷到正无穷,这个问题怎么解决呢?此时引入了一个sigmoid函数,这个函数的性质,非常好的满足了,x的输入可以是负无穷到正无穷,而输出y总是[0,1],并且当x=0时,y的值为0.5,以一种概率的形式表示. x=0的时候y=0.5 这是决策边界。当你要确定肿瘤是良性还是恶性时,其实我们是要找出能够分开这两类样本的边界,叫决策边界。

    详细内容见网址:http://www.mamicode.com/info-detail-501714.html

  • 相关阅读:
    增加浏览数
    seo页面的分类:静态,伪静态,动态
    在页面设计中开始seo
    页面SEO中文章标题的优化技巧
    SEO中关于撰写页面标题的7个技巧转
    评 谷歌研发先进编程技术 简化Web应用开发
    转 苹果自家的 Web 服务器和开发语言用的是什么方案?
    转 微软平台生态圈已经改变
    微软的烂设计与苹果的优秀设计
    Win8探索之组件平台之路
  • 原文地址:https://www.cnblogs.com/yupeter007/p/5858072.html
Copyright © 2020-2023  润新知