统计学基础 - 润新知

统计学基础
获取数据：

内部数据和外部数据：内部数据比外部数据可靠

一手数据和二手数据：一手数据比二手数据可靠

抽样方法：

概率抽样，例如调查某大学学生跑1000米的成绩
- 简单随机抽样：去学校随机调查看到的学生
- 分层抽样：对大一、大二、大三、大四各选取一定数量的学生进行调查
- 整群抽样：不区分性别，需要对男生和女生都进行调查
- 系统抽样(等距抽样)：按照一定规则对学号进行抽样，
非概率抽样，主要适用于所需调查的问题不具有普遍性，例如调查某大学学生每周阅读英文杂志的时长
- 方便抽样：研究者选取自己熟悉的人进行调查
- 判断抽样：研究者根据自己的判断决定是否对偶一个人进行调查
- 自愿抽样：被研究者自愿参与调查，自愿抽样在遇到敏感问题时往往会收到比较极端的结果
- 滚雪球抽样：选取到被调查者，被调查者再推荐满足条件的人参与调查
数据误差
- 抽样误差
- 非抽样误差：抽样框误差、回答误差、非回答误差、调查员误差等
Z score标准化

z=(x-μ)/σ，其中x为某一具体数，μ为平均数，σ为标准差

描述统计

集中趋势：平均数、中位数、众数

离散趋势：极值、四分位差

正态分布

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)，其概率密度函数为正态分布，期望值μ决定了其位置，标准差σ决定了分布的幅度。当μ = 0、σ = 1时的正态分布是标准正态分布，且 (X-μ)/σ 服从标准正态分布N(0,1)。

根据经验，距均值竖线左右两侧分别1个标准差的竖线，与正太曲线和横坐标轴围起来的面积约为整体面积的68%。

如果X1和X2为两个独立的满足正态分布的样本，则有如下结论。

t分布

t-分布（t-distribution）用于根据小样本来估计呈正态分布且方差未知的总体的均值。t分布曲线形态与与自由度df有关，与标准正态分布曲线相比自由度df越小，t分布曲线愈平坦，中间愈低双侧尾部翘得愈高；自由度df愈大，t分布曲线愈接近正态分布曲线；当自由度df=∞时，t分布曲线为标准正态分布曲线，一般为30时从生成的图表上来看基本重合。

卡方分布

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn服从标准正态分布（也称独立同分布于标准正态分布），则这n个随机变量的平方和构成一组新的随机变量，其分布规律称为卡方分布（chi-square distribution），ξ~x²(n)。由于平方过所以卡方分布的值不会小于0.

F分布

若总体X~N(0,1)，(X1,X2,...,Xn1)与(Y1,Y2,...,Yn2)为来自X的两个独立样本，即x~x²(n1)，y~x²(n2)，设统计量F=(x/n1)/(y/n2)，则统计量F服从自由度n1和n2的F 分布，记为F~F(n1,n2)

点估计和区间估计

区间估计为[样本均值-一定置信水平下置信度,样本均值+一定置信水平下置信度]

假设检验前提：总体符合正太分布

假设检验原理：

H₀：μ=100

H₁：μ≠100

对统计样本进行检验，如果P>显著性水平α→H₀，P<显著性水平α→H₀

单因素方差分析

假设检验原理：

H₀：xx因素不影响因变量

H₁：xx因素影响因变量

几个概念（x_ij表示样本值，x拔表示每组的样本均值，x拔拔表示所有样本均值，n表示样本数量，k表示组数，）

组内平方和

组内均方和

总平方和

组间平方和

组间均方

单因素方差分析F值计算

推导SST = SSE + SSTR，即总平方和=组内平方和+组间平方和

DFsst = DF_SSE+DF_SSTR

无交互因素双因素方差分析

假设检验原理（2套）：

H₀：行因素不影响因变量（set1）

H₁：行因素显著影响因变量（set1）

H₀：列因素不影响因变量（set2）

H₁：列因素显著影响因变量（set2）

双因素交互作用

假设检验原理：

H₀：行因素和列因素互相独立，无交互作用

H₁：行因素和列因素互相影响，有交互作用

线性回归

一元线性回归：一个自变量与因变量的线性关系，形如y = a + bx + e

多元线性回归：多个自变量与因变量的线性关系，形如y = a + b₁x₁ + b₂x₂ + ··· + b_nx_n + e

R square表示因变量有多少可以由自变量解释

对于多元线性回归，即使某一因素对因变量的解释能力很弱，但是如果将其加入模型R²仍然会增加，这就可能会出现虽然R²很高，但其实模型中有一些不太相关的自变量，为了解决这个问题引入了调整R square的概念，R_a²与R²的关系如下，随着R²的增大而增大，随着因变量个数的增加而减小。
相关阅读:
STL next_permutation 全排列
 日期问题
 兰顿蚂蚁
 矩阵翻硬币
 数学问题-排列组合
 h5css3_03练习
 h5css3_03
h5css3_02练习
 h5css3_02
h5c3_01练习
原文地址：https://www.cnblogs.com/Forever77/p/9737490.html