统计方法的应用

统计方法的应用

1，卡方分布

卡方分布用于检验观察值的频率和实际值得频率之间是否存在差异。

如果观察值Oi，i=1,2,3...(实验中获得的值)，期望得到的值Ei，i=1,2,3...(理论值)

x² = E_{（i=1,2...）}(Oi-Ei)²/Ei

拒绝无效假设的条件是 X² >X² _(df=n-1) (卡方检验的关键值)，者说明观测值与理论值之间有差异。

R代码：

2，相关分析

相关分析是一种非确定性的关系，没有精确到一个变量去精确的确定另一个变量。如身高和体重的关系

两个变量之间的相关关系可用相关系数表示。相关系数为正表示正相关，为负表示负相关，为0表示两个变量之间相互独立没有相关性。

3，回归分析

1，回归分析用最小二乘方法确定两个变量之间的关系

2，用最小二乘估计y

代码

3，一元线性回归和多元线性回归

线性回归指的是自变量和因变量之间存在着线性相关，我们通过建立线性回归模型，来确定自变量是怎样和因变量相关的

step1：确定哪些可能的变量与因变量相关用R中的lm()函数，用summary()查看该模型各个自变量之间的p值是否相关和R2值（R2值越接近1，说明模型拟合度越好）

step2:如果step1所了解到该模型不是很好，可以通过step()函数做逐步回归（向前逐步回归，向后逐步回归）或者是增加自变量中各种可能的交叉变量

（进行逐步回归的时候，主要看AIC值,AIC值越小，是模型拟合优良性之一的一个表现）

step3:最后所得到的模型R2值接近1，每个参数估计值的p值显著，

R语言做算法，并行运算博客：http://blog.csdn.net/sinat_26917383/article/details/52719247

4.逻辑回归

一、逻辑回归LR介绍

首先要搞清楚当你的目标变量是分类变量时，才会考虑逻辑回归，并且主要用于两分类问题。举例来说医生希望通过肿瘤的大小x1、长度x2、种类x3等等特征来判断病人的这个肿瘤是恶性肿瘤还是良性肿瘤，这时目标变量y就是分类变量（0良性肿瘤，1恶性肿瘤）。显然我们希望像保留像线性回归一样可以通过一些列x与y之间的线性关系来进行预测，但是此时由于Y是分类变量，它的取值只能是0,1,或者0,1,2等等，不可能是负无穷到正无穷，这个问题怎么解决呢？此时引入了一个sigmoid函数，这个函数的性质，非常好的满足了，x的输入可以是负无穷到正无穷，而输出y总是[0,1]，并且当x=0时，y的值为0.5，以一种概率的形式表示. x=0的时候y=0.5 这是决策边界。当你要确定肿瘤是良性还是恶性时，其实我们是要找出能够分开这两类样本的边界，叫决策边界。

详细内容见网址：http://www.mamicode.com/info-detail-501714.html
相关阅读:
增加浏览数
 seo页面的分类：静态，伪静态，动态
 在页面设计中开始seo
页面SEO中文章标题的优化技巧
 SEO中关于撰写页面标题的7个技巧转
 评　谷歌研发先进编程技术简化Web应用开发
 转苹果自家的 Web 服务器和开发语言用的是什么方案？
转微软平台生态圈已经改变
 微软的烂设计与苹果的优秀设计
 Win8探索之组件平台之路
原文地址：https://www.cnblogs.com/yupeter007/p/5858072.html

统计方法的应用

1，卡方分布

2，相关分析

3，回归分析

4.逻辑回归