用python做时间序列预测8：Granger causality test(格兰杰因果检验)

用python做时间序列预测8：Granger causality test(格兰杰因果检验)
如果想知道一个序列是否对预测另一个序列有用，可以用Granger causality test(格兰杰因果检验)。

Granger causality test的思想

如果使用时间序列X和Y的历史值来预测Y的当前值，比仅通过Y的历史值来预测Y的当前值得到的误差更小，并且通过了F检验，卡方检验，则X对Y的预测是有一定帮助的。了解了Granger causality test的思想之后会发现，其实Granger causality test最多能推断出X对Y的预测是有一定帮助的，至于是否能说X和Y是因果关系，则不一定。进一步了解可以去这里：https://www.zhihu.com/question/34787362

python代码

python的statsmodel包的grangercausalitytests函数中提供了很好的实现。
- 该方法接收一个包含2列的2维的数组作为主要参数：第一列是当前要预测未来值的序列A，第二列是另一个序列B,该方法就是看B对A的预测是否有帮助。该方法的零假设是：B对A没有帮助。如果所有检验下的P-Values都小于显著水平0.05，则可以拒绝零假设，并推断出B确实对A的预测有用。
- 第二个参数maxlag是设定测试用的lags的最大值。
- 我们使用关于澳大利亚药物销售的数据集做预测，并利用Granger causality检测‘月份’这个序列是否对数据集的预测用。
```
from statsmodels.tsa.stattools import grangercausalitytests
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/a10.csv', parse_dates=['date'])
df['month'] = df.date.dt.month
grangercausalitytests(df[['value', 'month']], maxlag=2)
```
- 输出结果： Granger Causality number of lags (no zero) 1 ssr based F test: F=54.7797 , p=0.0000 , df_denom=200, df_num=1 ssr based chi2 test: chi2=55.6014 , p=0.0000 , df=1 likelihood ratio test: chi2=49.1426 , p=0.0000 , df=1 parameter F test: F=54.7797 , p=0.0000 , df_denom=200, df_num=1 Granger Causality number of lags (no zero) 2 ssr based F test: F=162.6989, p=0.0000 , df_denom=197, df_num=2 ssr based chi2 test: chi2=333.6567, p=0.0000 , df=2 likelihood ratio test: chi2=196.9956, p=0.0000 , df=2 parameter F test: F=162.6989, p=0.0000 , df_denom=197, df_num=2
每个检验的p值都小于5%,所以可以说月份对澳大利亚药物销售的预测有用，或者说药物的销售可能存在季节性。

原文作者: 程序员一一涤生(云+社区)
相关阅读:
寒江独钓（0）：内核开发上机指导
 异常：Hibernate数据库恢复错误
 天书夜读：从汇编语言到Windows内核编程笔记(4)
企业WEBGIS网站解决方案
 如何使用国际开源项目构建一个完整的GIS（地理信息）应用系统
 将指定文件夹下的所有文件copy到目标文件夹下
 一些jquery的小知识
 压缩指定目录下指定文件(包括子目录下的文件)
解压一个rar文件
 关于下载txt文本文挡的问题
原文地址：https://www.cnblogs.com/zhukaijian/p/13220547.html

用python做时间序列预测8：Granger causality test(格兰杰因果检验)

Granger causality test的思想

python代码