统计学知识

统计学知识
置信区间

　　

置信区间，就是一种区间估计。

先来看看什么是点估计，什么是区间估计。

1 点估计与区间估计

买奖片卡：

点估计：买一张，猜测这一张是否会中奖

区间估计：买一盒，这一盒里面是否有一张中奖　　

下面解释置信区间是如何进行区间估计的？

2.置信区间

在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概率”。这个概率被称为置信水平。

如：估计某件事件完成会在10~12日之间，但这个估计准确性大约只有80%：表示置信区间（10,12），置信水平80%。要想提高置信水平，就要放宽置信空间。

期望频数

对于分类数据，统计的是频数，也就是每个分类数据出现的次数，而我们观察到的实际上就是观察频数，比如100个顾客购买不同品牌的服装，每个品牌购买的次数就是观察频数（样本特征）。

期望频数指的是如果按照总体的分布特征，品牌购买的次数应该是什么样的。

标准误差

S={[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/N}^0.5（x为平均数，N为样本个数）这个公式用来计算标准(偏)差。此公式中的X也就是所谓的平均数应改为x'1,x'2......（即真实值）。

标准误差（均方根误差）算的是观测值与其真值，或者观测值与其模拟值之间的偏差，而不是观测值与其平均值之间的偏差。

标准误差小，测量的可靠性大一些，反之，测量就不大可靠

Kappa系数

相关系数

1、0.8-1.0：极强相关。

2、0.6-0.8：强相关。

3、0.4-0.6：中等程度相关。

4、0.2-0.4：弱相关。

5、0.0-0.2：极弱相关或无相关。

显著性检验

在作结论时，应确实描述方向性（例如显著大于或显著小于）。

sig值通常用 P>0.05 表示差异性不显著；0.01<P<0.05 表示差异性显著；P<0.01表示差异性极显著。

如果我们是检验某实验中测得的数据，那么当数据之间具备了显著性差异，实验的虚无假设就可被推翻，对立假设（Alternative Hypothesis）得到支持；反之若数据之间不具备显著性差异，则实验的备择假设可以被推翻，虚无假设得到支持。
```
相关系数：[-1,1] 
显著性：可以理解为事件发生的可能性，因为开始假设两变量间不存在任何显著的相关关系
那么这里的显著性也就是假设发生的可能性，小于0.05（5%）时是小概率事件也就会拒绝假设即存在某种显著的相关关系。
得到两变量存在显著的相关关系后再考虑相关系数，相关系数<0,则反向相关。
```
协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值

如果X与Y是统计独立的，那么二者之间的协方差就是0

协方差矩阵

分别为m与n个标量元素的列向量随机变量X与Y，这两个变量之间的协方差定义为m×n矩阵.其中X包含变量X1.X2......Xm，Y包含变量Y1.Y2......Yn，假设X1的期望值为μ1，Y2的期望值为v2，那么在协方差矩阵中（1,2）的元素就是X1和Y2的协方差。

两个向量变量的协方差Cov(X,Y)与Cov(Y,X)互为转置矩阵。

协方差有时也称为是两个随机变量之间“线性独立性”的度量，但是这个含义与线性代数中严格的线性独立性不同。
相关阅读:
用标签替换的方法生成静态网页
 SQL Server 索引结构及其使用（三、四）(转载)
SQL server 2000异地备份
 GridView加自动编号列
 SQL Server 索引结构及其使用（一、二）(转载)
DropDownTreeList
SQL函数——将一对多关系转换成一对一关系
 动态sql语句基本语法
 kalilinux MSF数据库的连接
 Linux sudo权限绕过（CVE201914287）
原文地址：https://www.cnblogs.com/tingtin/p/13348101.html

置信区间

期望频数

协方差矩阵