1. 计量经济学也叫数量经济学或者叫量化经济学,主要的过程是数据结构分析、计量模型建立和预测。因此预测这个话题在时间序列数据中相当重要。他现在仍是一个很活跃的研究领域。很多的量化投资模型最重要应用也就是预测。
2. 这里几种研究以回归为进出的预测方法。
3. 假定我们的主要兴趣是预测一个时间序列过程的将来值,而不一定是要估计因果性或结构型经济模型。
4. 首先介绍一些与模型具体形式无关的基本预测原理。
4.1 假设我们在t 时期(当前时刻)想要预测y 变量 在t+1时期(下一个时间窗口)的结果,即yt +1。
4.2 所用时间单位可以是一年、一个季度、一个月、一个星期或一天。令It 代表我们在t 时期可以观测到的所有信息。这些信息叫做信息集(information set),包含yt 和 y 的先导值,常常还包括其他变量在t 或更早时期的值。可以用无数种方法来组合这些信息去预测yt+1。有没有哪一种方法更好呢?
4.3 设定与预测误差相联系的损失(loss),答案便是肯定的。
4.4 令一个函数ft 代表在t 期对yt+1所作的预测。称ft 为提前一期预测(one-step-ahead forecast)。预测误差(forecast error)是 et+1 = yt+1 - ft,常见的误差还可以用(et +1)2 来表示。
4.5 误差平方这种做法,对称地处理正负误差,越大的误差得到的权重也越大。还有一种叫|et+1| 的绝对值表示。这些都叫预测误差的损失函数(loss function)。
5. 在t 时期,并不知道et+1的值是多少,因为yt+1是一个随机变量,所以et+1也是个随机变量。
6. 所以在给定It 的所有信息集时,自然而然的我们选择使预测误差平方的期望最小的值:因此这个损失函数可以表示成下面这种概率表达式:
E((et+1)2 | It) = E[(yt+1 - ft)2 | It] (解释为:给定信息集右侧实际值和预测值的平方的期望,等于给定预测值下一时刻的误差平方的期望,也就是说使得这个条件均值最小化,越趋近于0,越好)。
7. 第一种简单预测:指数平滑法(exponenial smoothing),预测值通过下面的等式求出:ft = αyt + (1-α)ft-1,yt+1时期的预测值 是yt 和 在t-1时期对y预测值的加权平均。
8. 第二种简单预测:条件预测(conditional forecast),已知一个模型的表达式:yt = β0 + β1zt + μt,那么,E(yt+1 | It) = β0 + β1zt+1,不行的是我们很少知道zt+1 时刻的其他信息。除非包含时间趋势和季节虚拟变量。
9. 第三种简单预测:无条件预测(unconditional forescast),这个名词多少有些用词不当,因为我们的预测仍然是以It中的信息为条件。但是这一名词在预测文献中已经根深蒂固了(无非在用于与测试,被我们赋予一个特定的含义罢了)。
10. 就预测而言,除非由于某些原因使我们不得不用8中的模型,否则最好的设定的模型取决于y和z 的滞后值。这版省却了一些步骤,不必在预测y之前还要预测右边的变量。很容易就想到的一个模型是yt = δ0 + α1yt-1 + γ1zt-1 + μt。其中根据公式定义E(μt | It-1) = 0。若已知这些参数(估计出来)那么在t 时期对yt+1的预测值就是这个公式:δ0 + α1yt + γ1zt。
11. 提前一期预测函数可以写成:hat_ƒ = hat_δ0 + hat_α1yn + hat_γ1zn。
12. 举一个时间序列的预测示例(来自伍德里奇的计量经济学)
12.1 第一个模型,简单的AR(1)模型:
hat_unemt = 1.572 + 0.732 unemt-1
(0.577) (0.097)
n(样本数) = 48, R2 = 0.544, hat_σ = 1.049
12.2 第二个模型,增加通过膨胀率的一年之后,模型如下:
hat_unemt = 1.304 + 0.647 unemt-1 + 0.184 inft-1
(0.577) (0.097) (0.041)
n(样本数) = 48, R2 = 0.677, hat_σ = 0.833
12.3 所有的样本数据都是从1948年-1996年度数据。
12.4 预测下年,也就是1997年度数据,需要知道1996年的数据,也就是48条样本中的最后一条以及第二个模型滞后一年(47条)的数据,分别为:5.4 和 3.0。我们分别把这两个值带入到两个模型中,就能得到下一年也就是1997年度的预测值,过程如下:
模型1:1.572 + 0.732 × 5.4 = 5.52
模型2:1.304 + 0.647 × 5.4 + 0.184 × 3.0 = 5.35
12.5 而美国1997年的实际值为4.9。这两个模型都高估了数值,但是模型2相对好一些。
12.6 然后我们把预测区间估计出来:
13. 在实际工作中,有些专业预测员可以固定模型参数,用每一期的预测所用的模型参数保持不变来预测;还有就是新一期数据获得后,更新模型参数,再用更新后的参数预测下一期。(第二种方法需要进行更多的运算,但增加的过做了相对来说是次要的,它可能会(虽然并不一定)更好写,因为这些回归系数至少在一定程度上根据新数据而进行了调整)
14. 样本内准则和样本外准则。
14.1 就预测而言,使用样本外准则更好一些,因为预测本质上就是样本外问题。一个模型也许在用于估计其阐述的样本中对y拟合的比较好,但并不一定在与测试就有好的表现。一个样本外准则的方法大致为:用样本前一部分取估计模型中的参数,然后用样本剩余下来的部分判断它的预测能力。这就模拟了我们在不知道变量的将来值所需要的事情。
14.2 RMSE = 均方根误,MAE = 绝对平均误差。
14.3 还是以上面的为例子。去固定参数,然后累计外推7次预测值,去观察RMSE和MAE在样本外的表现。预测期(1997-2003:7年)。
在模型1中:RMSE = 0.962,MAE = 0.778
在模型2中:RMSE = 0.673,MAE = 0.628
14.4 显然模型2在样本外同样得到了比较好的结果。
14.5 当然,还有一种方法。不去固定参数,然后每做一次预测估计一次参数。
15. 提前多期预测:过程也非常简单,用预测出来的值,再代入方程,在预测多两期的预测值,以此类推进行迭代即可。