自相关函数/自相关曲线ACF
AR(1)模型的ACF:
模型为:
当其满足平稳的必要条件|a1|<1时(所以说,自相关系数是在平稳条件下求得的):
y(t)和y(t-s)的方差是有限常数,y(t)和y(t-s)的协方差伽马s
除以伽马0,可求得ACF如下:
由于{rhoi}其在平稳条件|a1|<1下求得,所以平稳
0<a1<1则自相关系数是直接收敛到0-1<a1<0则自相关系数是震荡收敛到0
对于AR(2)模型的ACF:
(略去截距项)
两边同时乘以y(t),y(t-1),y(t-2)......得到yule-Walker方程,然后结合平稳序列的一些性质(yule-Walker方程法确确实实用了协方差只与时间间隔有关的性质),得到自相关系数如下:
rho0恒为1
(二阶差分方程)
令人惊喜的是,这个二阶差分方程的特征方程和AR(2)模型的是一致的。
所以,我们的rho本就是在序列平稳的条件下求得,所以{rhoi}序列也平稳。
当然,其收敛形式取决于a1和a2
MA(1)模型的ACF:
模型为:
由于y(t)的表达式是由白噪声序列中的项组成,所以不需要什么平稳条件,就可以求得rho的形式如下:
对于MA(p)模型,rho(p+1)开始,之后都为0.所以说,到了p阶之后突然阶段,变为0了。
ARMA(1,1)模型的ACF:
模型为:
还是使用yule-Walker方程法
(用到了序列平稳则协方差只与时间间隔有关的性质)得到:
所以有:
ARMA(p,q)模型的ACF:
ARMA(p,q)的自相关系数满足:
(式1)
前p个rho值(rho1,rho2...rhop)可以看做yule-Walker方程的初始条件,其他滞后值取决于特征方程。
(其实是这样的,rho1,rho2...rhop实际上能写出一个表达式,而rho(p+1)开始,就满足一个差分方程,而这个方程对应的特征根(即式1)方程和AR(p)对应的一模一样),所以,他会从之后q期开始衰减。
所以,还是收敛的,不过收敛形式多样了。
(由于我们使用了序列平稳这一条件,但是平稳只能推出ai的累积和<1(必要条件),并不能保证每个|ai|都小于1(充分条件,没说是充要条件),但是,既然我们已经用了{y(t)}平稳这一条件,而{y(t)}和{rho(t)}的特征方程是一样的,他们的特征根都应该一样,那么我觉得认为{rho(t)}也是可以的)
偏自相关系数PACF:
为什么需要偏自相关系数?
在AR(1)模型中,即使y(t-2)没有直接出现在模型中,但是y(t)和y(t-2)之间也相关,
偏相关系数是在排除了其他变量的影响之后两个变量之间的相关系数。
证明:
然后我证明完了才发现,只要用上面AR(1)中的解就可以很直观的说明问题了。。
所以我们需要偏自相关系数。
y(t)和y(t-s)的偏自相关系数,排除了插入值y(t-1)到y(t-s+1)间的影响。
所以在AR(1)过程中y(t)和y(t-2)之间的偏自相关系数为0
本书采用了简单的方式:序列的每一个值减去序列的均值,得到一个新的序列如y(t*)=y(t)-mu,y(t*-1)=y(t-1)-mu
所得的fi(11)即为偏自相关系数系数(注:由于没有插入值,所以fi(11)既是自相关系数又是偏自相关系数)
如果我们要求y(t)和y(t-2)之间的偏自相关系数
则构造方程为:,求出的fi(22)就是y(t)和y(t-2)之间的偏自相关系数。
其实在古扎拉蒂一书中提到了偏回归系数,偏自回归系数是先做两个回归,然后再对两个回归得到的残差做回归,最终得到的偏自回归系数,和直接用多个回归元对回归子做回归得到的系数的结果是一样的。
我们可以不同构造阶数的自回归模型,得到对应的偏自相关系数。
以下将归纳出偏自相关函数(PACF)的一般表达式(即通过自相关系数求出):
其中:
若样本量为T,则仅有T/4的滞后量可以同来计算样本PACF。
AR(p)的PACF函数:
意思就是对于AR(p)过程,当s>p的时候,y(t)和y(t-s)的偏自相关系数为0
所以AR(p)的PACF图的一个特征就是在p滞后截断。
MA(1)的PACF:
模型为:
使用滞后算子,结合级数展开,其可以写为:
(我们应该还是站在平稳的角度考虑问题)
ARMA(p,q)的PACF:
也就是说,ARMA(p,q)模型对应的PACF图,
其在哪一点开始陡然下降(降到很低开始趋于0)取决于p(跟AR的特点有关)
其趋于0的方式取决于MA部分中的那些系数。
即PACF从滞后p期开始衰减,衰减模式取决于多项式:
一般特征总结如下:
平稳序列的样本自相关。
geometric 是几何的意思
符号函数(一般用sign(x)表示)是很有用的一类函数,能够帮助我们在几何画板中实现一些直接实现有困难的构造。 符号函数 能够把函数的符号析离出来 。在数学和计算机运算中,其功能是取某个数的符号(正或负):
当x>0,sign(x)=1;
当x=0,sign(x)=0;
当x<0, sign(x)=-1
的意思是,rho(1)的符号应该等于a1+beta的符号。
ACF是几何衰减的(或许也可以称之为指数吧)
因为根据之前对ARMA(1,1)的相关系数的分析,其结果如下:
oscillating是震荡的意思
(其实我有一个想法,既然有上述表,其实我们完全可以编写一个函数去绘制图这些类型的曲线,这样我们判断其ARMA模型就会很容易了)
平稳序列的样本自相关:
由于现实中我们无法获得总体的均值,方差和协方差,相关系数等,所以使用样本代替。
(我们不过是用了离散变量的公式了)
Box and Jenkins (1976)讨论了在{y(t)}平稳,且误差为正态分布的假设下,r(s)的分布。
如果r(s)的真实值等于0(即设真实数据生成过程是一个MA(s-1)过程(P59.因为MA(q)过程的ACF在q阶之后截断为0,而ACF就是自相关系数r啊))
则有:
且在大样本下(T很大的时候,这里T是指样本个数),r(s)将服从均值为0的正态分布。
这样看来,在大样本下r(1)~N(0,1/T),那么我们可以做显著性检验:
注意,我们是在MA(s-1)的假设条件下,设计如下的零假设和备择假设。
零假设为:1阶自回归在统计上不是显著的,即p=0
备择假设: p>0(所以是单侧检验)
如果计算得到的r(1)>2*square(1/T)
即r(1)大于两倍标准差,而0-2*sigma差不多就是正态分布右侧95%分位点。
于是,在拒绝域,则拒绝零假设。
那么既然p>0,则可以接着对r(2)做显著性检验了。
零假设为:2阶自回归在统计上不是显著的,即p=1
备择假设: p>1(所以是单侧检验)
如r(1)=0.5,且T为100.则利用上述公式可计算得到var(r(2))=0.015
即r(2)的方差为0.015,而标准差为0.123.
如果计算出的r(2)>2*0.123,则可以解决零假设。
我们接受p>!
如此反复地检验。(但是通常不超过T/4)
Box and Jenkins 构造出Q统计量用于检验一组自相关系数是否显著异域于0.
在所有的r(k)=0的假设下,Q渐近地~卡方(s)
即较高的自相关系数将导致较高的Q,即如果Q大于临界值,则拒绝原假设,即至少存在一个自相关系数不为0.
但是Q统计量的问题在于,即便是对于适度da的s,其效果也不佳。
Ljung and Box (1978)提出了更优且在小样本中仍适用的修正的Q统计量
如果Q大于自由度为s的卡方分布的临界值,则少存在一个自相关系数不为0.
Q和修正的Q还可以用于检验ARMA(p,q)模型中的残差是否为白噪声过程。
若使用ARMA(p,q)模型的残差,如果从模型中得到了s个自相关系数,则Q服从自由度为s-p-q的卡方分布(因为有p+q估计系数啊),如果模型中有截距项,则自由度为s-p-q-1。
在AR(p)的零假设下(即在所有的都为0(P62.对于纯AR(p过程,其PACF在p以后就截断为0)),的方差渐进地等于1/T
附件列表