独立性检验(Test for Independence)是根据频数来判断两类因子是彼此独立还是彼此相关的一种假设检验。假如对某一个数据集有X(值域为x1, x2)跟Y(值域为y1, y2)变量,下面是他们的频数表:
|
x1 |
x2 |
汇总 |
y1 |
a |
b |
a+b |
y2 |
c |
d |
c+d |
汇总 |
a+c |
b+d |
n = a+b+c+d |
我们可以使用独立性检验来了解变量x与y是否有关系,并且能较准确的给出这种判断的可靠程度。具体做法是由上面的频数表计算出随机变量K2的值:
其中K方的值越大,说明变量X与变量Y有关系的可能性越大。当频数表中a、b、c、d的值都不小于5的时候,可以查阅下表来确定“X与Y有关系”的可信程度:
P(K^2≥k) |
0.5 |
0.4 |
0.25 |
0.15 |
0.1 |
k |
0.455 |
0.708 |
1.323 |
2.072 |
2.706 |
P(K^2≥k) |
0.05 |
0.025 |
0.01 |
0.005 |
0.001 |
k |
3.841 |
5.024 |
6.635 |
7.879 |
10.828 |
我们为什么不能只凭列联表中的数据和由其绘出的图形得出两个变量是否有关系的结论呢?由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体。