时间序列分析自学笔记-05多元时间序列

Chapter 5: 多元时间序列

[!IMPORTANT] 本章学习目标

  1. 介绍干扰分析和传递函数分析。
  2. 阐述当系统中不存在信息反馈时,传递函数分析是预测和假设检验的有效工具。
  3. 使用恐怖主义和意大利旅游的数据解释估计自回归分布滞后 (ADL) 的适当方式。
  4. 阐述为什么传递函数和 ADL 模型的主要限制是许多经济系统都呈现出信息反馈性。
  5. 介绍向量自回归 (VAR) 的原理。
  6. 展示怎样估计 VAR 模型。阐述为什么向量自回归 (VAR) 的一个最基本形式就是均等地对待所有变量,而不涉及独立与否的争议。
  7. 展示怎样获得脉冲响应和方差分解。
  8. 阐述如何检验滞后期、Granger 因果关系和 VAR 的外生性。
  9. 采用打击国际恐怖活动的样本数据,阐述 VAR 的估计过程和获得脉冲响应的过程
  10. 展示结合经济理论和多变量时间序列的结构性 VAR 和多变量分解两种方法。
  11. 阐述几种不同类型的可用于确定向量自回归模型的限制条件。
  12. 展示如何检验过度识别限制。使用宏观经济和农业的例子阐述方法。
  13. 阐述怎样检验长期中立可用来确定 VAR 的 Blanchard-Ouah 约束条件。
  14. 用实际和名义利率数据阐述 Blanchard-Quah 分解过程。

前面的章节仅涉及单变量时间序列的分析,从本章开始涉及多变量的分析。

  • 与单一变量的时间序列相比,多变量时间序列涉及两个或更多的变量相互之间的关系,
  • 这样的数据结构更加复杂。它不仅要求我们理解每个变量自身的动态特征,还要掌握这些变量之间的互动模式。

5.1 干扰分析

稳定的时间序列可能由于某些事件的发生变得不稳定,比如自然事件(如地震)、政策等。这时,我们希望研究外生变量 z 对时间序列变量 y 的影响。怎么做?

干扰分析(干预分析,intervention analysis)

  • 干扰分析的一般模型形式如下:$$y_t = a_0 + A(L)y_{t-1} + cz_t + B(L)\varepsilon_t$$
  • 其中,A(L)、B(L)为滞后算子的多项式,$z_t$ 为外生变量,c 为为我们感兴趣的系数。
  • ${y_t}$ 需要为平稳序列。也就是说,在进行干扰分析前应进行单位根检验,若原始序列为平稳序列,可以直接使用,若为非平稳序列,则需进行差分或去除趋势等平稳化操作。
  • 如果干扰因素对时间序列数据的影响存在延迟,可取干扰变量的滞后形式 $z_{t-d}$ 替换 $z_t$ 。

干扰因素的出现使得时间序列数据被分为两段:干扰前和干扰后。针对不同的情况,可以选取不同的变量形式来刻画干扰因素:

  1. 虚拟变量

    • 若在 t 时刻干扰因素存在,则 $z_t = 1$,否则 $z_t = 0$。
    • 举例来说,若某项政策在 $t = 10$ 时颁布后一直实行,则对于 $t < 10$,可设 $z_t = 0$;对于 $t \geq 10$ 时,可设 $z_t = 1$,这是一种 纯粹跳跃 的情况。
    • 若某项特殊政策仅在 $t = 10$ 时实行过一次,此后就恢复之前的状态了,那么可以仅在 $t = 10$ 时设 $z_t = 1$,其余时刻 $z_t = 0$,这种情况也称为 脉冲
  2. 渐进式(渐进变化函数)

    • 这种形式是对纯粹跳跃的改进,即干扰因素不是一次性地从 0 跳跃到 1,而是经历了一个渐进的过程。
    • 比如,设 $z_{10} = 0.25$,$z_{11} = 0.5$,$z_{12} = 0.75$,$z_{13} = 1$,此后均有 $z_t = 1$。
  3. 衰减式(延长的脉冲函数)

    • 这种情况是对脉冲的改进。
    • 脉冲形式假定干扰因素是一下子消失的,而衰减式则假定干扰因素是逐渐衰减的,也就是说 $z_t$ 从 1 恢复为 0 需要经历一个过程。
    • 比如,设 $z_{10} = 1$,$z_{11} = 0.75$,$z_{12} = 0.5$,$z_{13} = 0.25$,此后均有 $z_t = 0$。

干扰分析建模步骤

  • 步骤 1:把时间序列分为干扰前和干扰后两段,选择其中较长的一段识别 ARIMA 模型
  • 步骤 2:以步骤 1 确定的模型阶数为基础,使用全样本(干扰前+干扰后)对干扰模型进行拟合。
  • 步骤 3:诊断检验。一个估计出的好的干扰模型应具备如下特征
  • 估计出的所有系数都应该是统计显著的。而且,自回归系数应该显示 $y_t$ 收敛。
  • 残差应该近似白噪声过程。 请注意:如果残差并不类似于正态分布,通常小样本的估计检验的推断是无效的;如果误差看上去服从 ARCH 过程,则需要将整个干扰模型当作 ARCH 模型重新进行估计。
  • 预测模型应当优于看似合理的备择模型

5.2 传递函数分析与 ADL 模型

5.2.1 传递函数模型

对干扰模型的自然扩展就是 允许序列 ${z_t}$ 不仅仅是一个确定性的虚拟变量
考虑传递函数的一般形式如下:

$$
y_{t}=a_0+A(L)y_{t-1}+C(L)z_{t}+B(L)\varepsilon_{t}
$$

式中,$A (L)$、$B (L)$ 和 $C (L)$ 是滞后算子 L 的多项式。

  • 其中,$C (L)$ 被称为 传递函数,因为它展示了外生变量 ${z_t}$ 中的变动如何影响(转换为)内生变量 ${y_t}$ 的时间路径。
  • 我们可以设 $C (L)=c_0+c_1L+c_2L^2+\cdots$ 。其中系数 $c_i$ 被称为传递函数权重。
  • 在一个典型的传递函数分析中,研究者必将收集内生变量 ${y_t}$ 和外生变量 ${z_t}$ 的数据,其目的在于估计参数 $a_0$ 和多项式 $A (L)$、$B (L)$ 和 $C (L)$ 的参数。

[!note] 传递函数模型 v.s 干扰模型

  • 干扰模型和传递函数模型的共同点是:都假定 z 为外生变量,即只允许 z 影响 y,而不允许反过来 y 影响 z。
  • 传递函数模型较干扰模型更具一般性:
    • 对于干扰模型,无论是当期值,还是滞后值,都仅含一项与 z 相关的项,
    • 而在传递函数模型中, ${z_t}$ 并没有受到特殊的确定性时间路径的约束,而是允许干扰变量为任意随机外生过程,允许出现分布滞后项。
  • 对于在多个时期分配 z 对 y 影响的模型,称为分布滞后(distributed lag)模型

5.2.2 特例:ADL 模型

ADL 模型是传递函数模型的特例。令 $B (L)=1$,模型形式如下:

$$
y_{t}=a_0+A(L)y_{t-1}+C(L)z_{t}+\varepsilon_{t}
$$

  • 此时,模型中仅含有的自回归项和分布滞后项,不含误差的移动平均项,因此称为 自回归分布滞后模型(ADL 模型)。
  • 与纯粹的干扰模型相比,ADL 模型并没有干扰前和干扰后之分,所以我们不能按照估计干扰模型的那种形式估计。
  • 尽管不能照搬,但其目的都是为了估计一个简练的模型,所以估计方法是类似的。

[!tip] 拟合 ADL 模型的步骤
我们考虑一个简单的 ADL 模型

$$
y_t = a_1 y_{t-1} + c_d z_{t-d} + \varepsilon_t
$$

其中,${z_{t}},{\varepsilon_{t}}$ 为独立的白噪声过程,$E(z_{t}\varepsilon_{t-i})=0$, $a_1,c_d$ 为未知系数,d 是我们设定的滞后期。

第一步:计算 $y_t$ 与不同 $z_{t-i}$ 的值的互相关系数(cross-correlations)。

  • $y_t$ 和 $z_{t-i}$ 的互相关系数定义为

$$
\rho_{yz}(i) = \frac{Cov(y_t, z_{t-i})}{\sigma_y \sigma_z}
$$

  • 用 $\rho_{yz}$ 作图,得到 互相关函数(cross-correlation function, CCF)或互相关图。
  • 在实践中,我们必须用到通过样本数据计算的互相关系数,因为我们并不知道准确的协方差和标准差。

第二步:计算互协方差

  • 求解前述 ADL 模型,得到

$$
y_{t} = \frac{c_d z_{t-d}}{(1-a_1 L)} + \frac{\varepsilon_t}{(1-a_1 L)}
$$

  • 根据滞后算子的性质,展开表达式 $\dfrac{c_d z_{t-d}}{(1-a_1 L)}$ ,得到

$$
y_{t} = c_d(z_{t-d}+a_1z_{t-d-1}+a_1^2z_{t-d-2}+a_1^3z_{t-d-3}+\cdots)+\frac{\varepsilon_t}{(1-a_1 L)}
$$

  • 我们通过用 $z_t, z_{t-1}, \cdots$ 依次乘以 $y_t$ 就可以得到互协方差(cross-covariances)。
  • 进一步依次计算期望值,写出一般形式:

$$
E\left(y_{t} z_{t-i}\right)=\left{\begin{array}{ll}0, & \text { 当 } i<d \ c_{d} a_1^{i-d} \sigma_{z}^{2}, & \text { 当 } i \geq d\end{array}\right.
$$

第三步:代入得到互协方差 CCF 函数

$$
\rho_{y z}(i)=\frac{\operatorname{cov}\left(y_{t}, z_{t-i}\right)}{\sigma_{y} \sigma_{z}}=\frac{E\left(y_{t} z_{t-i}\right)}{\sigma_{y} \sigma_{z}}=\left{\begin{array}{ll}0, & \text { 当 } i<d \ \dfrac{c_{d} a_1^{i-d} \sigma_{z}}{\sigma_{y}}, & \text { 当 } i \geq d\end{array}\right.
$$

  • $Cov(X,Y) = E(X - EX)(Y - EY)=E(XY)-EXEY$,且 ${z_t}$ 白噪声,$E(z_t)=0$
  • 第一个非零的互相关系数的大小的绝对值与 $c_d$ 和 $a_1$ 的数值正相关
  • 此后,互相关系数按照比例 $a_1$ 衰减。互相关图的衰减与序列 $y_t$ 的 AR 相匹配。
  • 互相关系数为 $E(y_t z_{t-i}) / (\sigma_y \sigma_z)$。在文献中,用 $E(y_t z_{t-i}) / \sigma_z^2$ 表示标准化互协方差的做法很普遍。对两种表示方法的选择无关紧要,因为互协方差函数 CCF 和标准化的互协方差函数(CCVF)是互成比例的。根据互协方差为 $E(y_t z_{t-i})$,CCVF 为

$$
\gamma_{yz}(i) = \begin{cases} 0, & \text{当 } i < d \ c_d, & \text{当 } i = d \ a_1^{i-d-1} (c_d a_1 + c_{d+1}), & \text{当 } i \geq d + 1 \end{cases}
$$

它前面的规律仍然适用:当 $i>d+1$ 时,CCVF 呈指数衰减,衰减比例为 $a_1$。

更高阶 AR 过程的情况

  • 当向模型中加入 $y_t$ 的滞后项 $y_{t-2}$(系数设定为 $a_2$),即保持 $C(L)$ 不变、改变 $A(L)$ 的形式时,$\gamma_{yz}(i)$ 存在如下关系:

$$
\gamma_{yz}(i) = a_1 \gamma_{yz}(i-1) + a_2 \gamma_{yz}(i-2) \quad i \geq d+2
$$

  • 所刻画的 $\gamma_{yz}(i)$ 的变化趋势与 $A(L)$ 对应的 AR(2) 的 ACF 变化趋势也完全一致。
  • 拓展地看,当 ${ z_t }$ 为白噪声序列时,CCVF 从某一滞后期后的变化趋势能够大致反映出 $A(L)$ 的形式。此外,CCVF 也能大致反映 $C(L)$ 的形式:CCVF 的第一个非零值与 $C(L)$ 的第一个非零滞后项相对应;其峰值绝对值在 $C(L)$ 最大滞后项附近。

理论上,互相关函数 CCF 与 CCVF 具有如下的特征:

  1. 在多项式 $C(L)$ 的第一个非零元素出现之前,所有的 $\gamma_{yz}(i)=0$。
  2. CCVF 中的峰值表示 $C (L)$ 的非零元素。因此滞后期 $d$ 处的峰值表示 $z_{t-d}$ 直接影响 $y_t$。
  3. 所有的峰值都以比例 $a_1$ 衰减。收敛性暗示 $a_1$ 的绝对值小于 1。如果 $0<a_1<1$,则互协方差是直接衰减的,而如果 $-1<a_1<0$,则互协方差是震荡衰减的

5.2.3 滤波与 ADL 模型估计

现在我们知道。可以通过 CCF 或 CCVF 判断出 A (L) 和 C (L) 的阶数,但是这一结论是在 ${z_t}$ 为白噪音序列的前提下推导的,更一般的情况是:假设它为一个平稳 ARMA 过程:

$$
D(L)z_t = E(L)\varepsilon_{zt}
$$

其中 $D(L)$、$E(L)$ 为滞后算子多项式,$\varepsilon_{zt}$ 为白噪音序列。

转换后,有:$z_t=\dfrac{E(L)}{D(L)}\varepsilon_{zt}$。进而有,

$$
\begin{split} y_t&= a_0+A(L)y_{t-1}+C(L)\frac{E(L)}{D(L)}\varepsilon_{zt}+B(L)\varepsilon_t \ \downarrow \
\frac{D(L)}{E(L)}y_t&=\frac{D(L)}{E(L)}a_0+\frac{D(L)}{E(L)}A(L)y_{t-1}+C(L)\varepsilon_{zt}+\frac{D(L)}{E(L)}B(L)\varepsilon_t \end{split}
$$

令 $y_{ft}=\dfrac{D(L)}{E(L)}y_t$,则上式可转换为如下形式:

$$
y_{ft}=\frac{D(L)}{E(L)}a_0+A(L)y_{f(t-1)}+C(L)\varepsilon_{zt}+\frac{D(L)}{E(L)}B(L)\varepsilon_t
$$

  • 这样,传递函数模型中的外生变量就转换成白噪音的形式了(即 $\varepsilon_{zt}$)。
  • 对 $y_{ft}$ 和 $\varepsilon_{zt}$ 求互相关函数,其变化趋势仍能反映出原始模型中 $A(L)$、$C(L)$ 的形式。
  • $\dfrac{D(L)}{E(L)}$ 称为 滤波(filter);$y_{ft}$ 是 $y_t$ 经过滤波后的值,称为 新息(innovation)。

[!tip] 传递函数模型估计的步骤

  1. 使用 AR 模型拟合 $z_t$

    • 若 $z_t$ 存在自相关,用 AR 模型 捕捉其滞后结构。
    • 同时,可能需检验 $z_t$ 的平稳性(如 ADF 检验),避免伪回归。
  2. 识别 $C (L)$ 的合理候选(分布滞后项)

    • 首先,使用 $z_t$ 的 AR 模型结果,借助滤波 $\dfrac{D(L)}{E(L)}$ 构建过滤序列 $y_{ft}$,以去除 $y_t$ 中与 $z_t$ 相关的自相关噪声,突出 $z_t$ 对 $y_t$ 的直接影响。
    • 识别 $C (L)$
      通过分析 $y_{ft}$ 与 $z_t$ 的互相关函数(CCF),确定 $z_t$ 的滞后阶数,初步构建分布滞后项 $C (L) z_t$。
  3. 识别 $A (L)$ 的合理候选(自回归项)

    • 直接 $y_t$ 对 $z_t$ 进行回归(如 $y_t = c_0 z_t + c_1 z_{t-1} + e_t$),得到初步的分布滞后模型。
    • 分离自回归项 $A (L)$:通过残差分析(如 ACF/PACF 检验)识别 $y_t$ 的自回归结构。例如,若残差存在一阶自相关,则引入 $y_{t-1}$。
  4. 将步骤 2 和 3 的结果整合为完整 ADL 模型

    • 同时估计 A(L) 和 C(L) 。

    $$
    Y_t = \underbrace{a_1 y_{t-1} + a_2 y_{t-2} + \dots}{A (L)} + \underbrace{c_0 z_t + c_1 z{t-1} + \dots}_{C (L)} + \varepsilon_t
    $$

    • 注意:如果 ${y_t}$ 、 ${z_t}$ 任一个非平稳,则样本的互相关系数没有意义。

5.3 向量自回归(VAR)模型

上篇介绍的传递函数模型的假设是,$z_t$ 会影响到 $y_t$,而 $y_t$ 不会影响 $z_t$,因此称 $z_t$ 为外生变量(exogenous variable)。那么,如果 $z_t$ 和 $y_t$ 以及更多的变量之间能够相互影响呢?

  • 此时,它们就是内生变量(endogenous variable)。
  • 当我们难以判断变量是否外生,传递函数分析的自然扩展就是均等地对待每一个变量。
  • 向量自回归模型(vector autoregressive model)研究了内生变量之间的相互影响作用。

5.3.1 VAR 模型含义与性质

考虑如下简单的双变量系统:

$$
y_t = \alpha_1 + \beta_1 z_t + B_1(L)y_{t-1} + C_1(L)z_{t-1} + \varepsilon_{y_t}
$$

$$
z_t = \alpha_2 + \beta_2 y_t + B_2(L)y_{t-1} + C_2(L)z_{t-1} + \varepsilon_{z_t}
$$

式中,$B_1 (L)$、$B_2 (L)$、$C_1 (L)$、$C_2 (L)$ 是阶数相同的滞后算子多项式,

  • 假设其阶数为 $p$,它也称作是 VAR 模型的阶数。
  • 对于每个变量来说,预测变量包括本身的 $p$ 阶滞后值、其他变量的 $p$ 阶滞后值、其他变量的当期值($z_t$ 或 $y_t$)。
  • $\varepsilon_{yt}$ 和 $\varepsilon_{zt}$ 为白噪声,且彼此互不相关。

将模型形式中的当期值移到等号左侧,变成如下形式:

$$
y_t - \beta_1 z_t = \alpha_1 + B_1 (L) y_{t-1} + C_1 (L) z_{t-1} + \varepsilon_{y_t}
$$

$$
-\beta_2 y_t + z_t = \alpha_2 + B_2 (L) y_{t-1} + C_2 (L) z_{t-1} + \varepsilon_{z_t}
$$

以矩阵形式写出,
$$
\begin{bmatrix}1 & -\beta_1 \-\beta_2 & 1\end{bmatrix}\begin{bmatrix}y_t \z_t \end{bmatrix}=\begin{bmatrix}\alpha_1 \\alpha_2 \end{bmatrix}+\begin{bmatrix}B_1 (L) & C_1 (L) \B_2 (L) & C_2 (L)\end{bmatrix}\begin{bmatrix}y_{t-1} \z_{t-1}\end{bmatrix}+\begin{bmatrix}\varepsilon_{y_t} \\varepsilon_{z_t}\end{bmatrix}
$$

再变换得,

$$
\begin{bmatrix}
y_t \
z_t
\end{bmatrix}=
\begin{bmatrix}
1 & -\beta_1 \
-\beta_2 & 1
\end{bmatrix}^{-1}
\begin{bmatrix}
\alpha_1 \
\alpha_2
\end{bmatrix}
+
\begin{bmatrix}
1 & -\beta_1 \
-\beta_2 & 1
\end{bmatrix}^{-1}
\begin{bmatrix}
B_1 (L) & C_1 (L) \
B_2 (L) & C_2 (L)
\end{bmatrix}
\begin{bmatrix}
y_{t-1} \
z_{t-1}
\end{bmatrix}
+
\begin{bmatrix}
1 & -\beta_1 \
-\beta_2 & 1
\end{bmatrix}^{-1}
\begin{bmatrix}
\varepsilon_{y_t} \
\varepsilon_{z_t}
\end{bmatrix}
$$

使用一些符号代替上式中的矩阵,得到下式:

$$
X_t = A_0 + AX_{t-1} + e_t
$$

式中,$X_t = [y_t, z_t]^{T}$,其余依次类推。

  • 这样,等号右侧不再包含变量的当期值,这被称为 VAR 模型的标准形式
  • 可以看出,模型的基本形式是弱平稳过程的自回归表达式。
  • 包含当期值的形式则被称为 结构性 VAR 模型
  • 变量当期值之间的相关性被隐藏在模型残差 $e_t$ 之中。它是两个冲击 $\varepsilon$ 的组合

$$
e_t = \left[\begin{array}{cc}
1 & -\beta_1 \
-\beta_2 & 1
\end{array}\right]^{-1} \left[\begin{array}{c}
\varepsilon_{y_t} \
\varepsilon_{z_t}
\end{array}\right] = \frac{1}{1 - \beta_1 \beta_2} \left[\begin{array}{cc}
1 & \beta_1 \
\beta_2 & 1
\end{array}\right] \left[\begin{array}{c}
\varepsilon_{y_t} \
\varepsilon_{z_t}
\end{array}\right]
$$

显然,若变量的当期值之间存在联系,即 $\beta_1$ 和 $\beta_2$ 至少有一个不为 0,则 $\varepsilon_{y_t}$ 和 $\varepsilon_{z_t}$ 必然相关;反之,若变量的当期值不存在相互影响,则 $\varepsilon_{y_t}$ 和 $\varepsilon_{z_t}$ 也不相关。

[!note] 矩阵求逆
对于一个 2×2 矩阵 A,其逆矩阵为:
$$
A = \left[\begin{array}{cc}
a & b \
c & d
\end{array}\right]= ad-bc
\quad \to \quad
A^{-1} = \frac{1}{|A|}adj(A) = \frac{1}{ad - bc} \left[\begin{array}{cc}
d & -b \
-c & a
\end{array}\right]
$$

Why?

  • 伴随矩阵 adj(A) 是余子式矩阵的转置
  • A 的余子式矩阵:$\left[\begin{array}{cc}d & -c \-b & a\end{array}\right]$
  • 进一步 转置 才得到伴随矩阵 adj(A) 。

应用到我们的矩阵:

$$
A = \left[\begin{array}{cc}
1 & -\beta_1 \
-\beta_2 & 1
\end{array}\right]
= 1 - \beta_1 \beta_2
\to
A^{-1} = \frac{1}{1 - \beta_1 \beta_2} \left[\begin{array}{cc}
1 & \beta_1 \
\beta_2 & 1
\end{array}\right]
$$

因此:

$$
\begin{cases}e_{1 t}=\dfrac{\varepsilon_{y t}-\beta_1 \varepsilon_{z t}}{1-\beta_1\beta_2}\
e_{2 t}=\dfrac{\varepsilon_{z t}-\beta_2 \varepsilon_{y t}}{1-\beta_1\beta_2}
\end{cases}
$$

因为 $\varepsilon_{y}$ 和 $\varepsilon_{z}$ 服从白噪声过程,所以,$e_{1t}$ 和 $e_{2t}$ 的均值为 0,方差恒定且独立不相关(自协方差 = 0,如果两个冲击相关,互协方差不为 0;如果两个冲击不相关,互协方差为 0)。

顺理成章地,我们可以推广到 k 维,也就是 k 元时间序列的 VAR 模型。

$$
Y_{t}=\Phi_{0}+\Phi_{1} Y_{t-1}+\cdots+\Phi_{p} Y_{t-p}+B X_{t}+\varepsilon_{t}, \quad t = 1,2, \cdots, T
$$

其中

$$
\boldsymbol{Y}{t}=\left (\begin{array}{c}
Y
{1 t} \
Y_{2 t} \
\vdots \
Y_{k t}
\end{array}\right), \quad \boldsymbol{\varepsilon}{t}=\left (\begin{array}{c}
\varepsilon
{1 t} \
\varepsilon_{2 t} \
\vdots \
\varepsilon_{k t}
\end{array}\right), \quad \boldsymbol{\Phi}{0}=\left (\begin{array}{c}
\phi
{10} \
\phi_{20} \
\vdots \
\phi_{k 0}
\end{array}\right)
$$

$$
\boldsymbol{\Phi}{i}=\left (\begin{array}{ccc}
\phi
{11}(i) & \cdots & \phi_{1 k}(i) \
\phi_{21}(i) & \cdots & \phi_{2 k}(i) \
\vdots & \ddots & \vdots \
\phi_{k 1}(i) & \cdots & \phi_{k k}(i)
\end{array}\right), i = 1,2, \cdots, p
$$

5.3.2 多元时间序列平稳性、可逆性

5.3.2.1 平稳性

如果一个 $k$ 维时间序列 $Y_t$ 弱平稳,它需要满足下列两个条件:

  • $E (Y_t) = \mu$;
  • $Cov (Y_t) = E[(Y_t - \mu)(Y_t - \mu)^T] = V$, 其中 $V$ 是 $k \times k$ 维的常数正定矩阵。

为了使模型平稳,当 $k \to \infty$ 时,系数矩阵的幂收敛到零矩阵:$\Phi_1^{\infty} = 0$

  • 数学条件:矩阵 $\Phi_1$ 的特征根全部小于 1。
  • 设 $\Phi_1$ 对应的特征根为 $\lambda$,即 $\lambda$ 是方程 $|\lambda I_2-\Phi_1|=0$ 的根。为使模型平稳,方程的根必须在单位圆内(也可以表述为:对应的特征方程的根全在单位圆外)

5.3.2.2 可逆性

[!tip] 多元时间序列可逆的定义:
如果一个 $k$ 维时间序列 $Y_t$ 可以表示如下形式则称该序列可逆:$$Y_t = c + \sum_{j=1}^{\infty} \pi_j Y_{t-j} + \varepsilon_t$$

根据可逆性定义知,$k$ 元 VAR ($p$) 模型总是可逆的。

  • 事实上,请回忆:AR 模型是可逆的。
  • 对于 VAR ($p$) 模型,对任意 $j > p$,$\pi_j = 0$。因此也是可逆的。

由于 VAR 具有可逆性,每一个 VAR 模型都可以表示成为一个无限阶的向量 MA (∞) 过程。
我们知道双变量的 VAR 模型的标准形式如下:

$$
X_t = A_0 + AX_{t-1} + e_t
$$

通过不断迭代,可以将上式进行如下转换:

$$
\begin{split}X_t =& A_0 + AX_{t-1} + e_t \=& A_0 + A (A_0 + AX_{t-2} + e_{t-1}) + e_t \
=& (I + A) A_0 + A^2 X_{t-2} + Ae_{t-1} + e_t \
&… \
=& (I + A + A^2 + … + A^n) + A^{n+1}X_{t-n-1} + \sum_{i = 0}^{n} A^ie_{t-i}\end{split}
$$

当 $n \to \infty$,$A^{n+1} \to 0$,而 $\sum_{i=0}^{n} A^ie_{t-i}$ 的期望始终为 0,则 $I + A + A^2 + … + A^n$ 为 $X_t$ 的数学期望,记为 $\mu$。则有,

$$
X_t = \mu + \sum_{i = 0}^{\infty} A^ie_{t-i}
$$

我们还知道,

$$
e_t = \frac{1}{1-\beta_1\beta_2}\begin{bmatrix} 1 & \beta_1 \ \beta_2 & 1 \end{bmatrix}\begin{bmatrix} \varepsilon_{yt} \ \varepsilon_{zt} \end{bmatrix}= \frac{1}{1-\beta_1\beta_2}\begin{bmatrix} 1 & \beta_1 \ \beta_2 & 1 \end{bmatrix}\varepsilon_t
$$

代入得到,

$$
X_t = \mu + \frac{1}{1-\beta_1\beta_2}\sum_{i = 0}^{\infty} A^i\begin{bmatrix} 1 & \beta_1 \ \beta_2 & 1 \end{bmatrix}\varepsilon_{t-i}
$$

这被称为 VAR 的 移动平均形式 VMA(vector moving average)。

5.3.3 VAR 参数估计、识别与预测

  • 对于平稳 VAR(p)模型,使用普通最小二乘估计和广义最小二乘估计的结果是相同的;
    • 在正态分布的假设下,最大似然估计与最小二乘估计的结果近似相等。
    • 一旦 VAR 被估计以后,它就能作为一个多元预测模型。
    • 由于无约束 VAR 是过度参数化的,因而,预测可能不可信。为了得到一个精简模型,许多预测者将 VAR 中不重要的系数排除并用 SUR 重新估计。这就是近似 VAR 模型,在估计得到近似 VAR 模型后,用它进行预测。
    • 另一些人在估计参数时,将 VAR 与贝叶斯方法联系,基于后验分布进行统计推断。
  • 定阶:建立 VAR 模型除了要满足平稳性条件外,还应该正确确定滞后期。如果滞后期太少,误差项的自相关会很严重,并导致参数的非一致性估计。在 VAR 模型中适当加大 p 值(增加滞后变量个数),可以消除误差项中存在的自相关;但从另一方面看,p 值又不宜过大,p 值过大会导致自由度减小,直接影响模型参数估计量的有效性。我们可以基于似然比检验结果和信息准则确定滞后阶数 p。(课本 5.8 节)
    • 似然比检验(Likelihood Ratio Test, LR),其思路是比较 VAR($k$) 和 VAR($k+1$) 模型的拟合能力。原假设 H0:$Φ_l$ = 0,备择假设 H1:$Φ_l$ ≠ 0。通过逐步回归,比较模型的似然比,构建统计量。$$LR = −2(\log L(k) − \log L(k+1)) \sim χ²(N²)$$ k 表示 VAR 模型中滞后变量的最大滞后期。当 VAR 模型滞后期的增加不会给极大似然函数值带来显著性增大时,即 LR 统计量的值小于临界值时,新增加的滞后变量对 VAR 模型毫无意义。
    • 信息准则AIC可能会超调(overshooting)真实值p;Hannan-Quinn IC和BIC结果比较一致。(详见 Link
  • 模型验证:多元混成检验。
    • 准确的模型的残差应该是白噪声序列。
    • 多元混成检验是为了检验残差的序列相关性,其原假设 H0 为:残差相关矩阵 $ρ_{a1} = · · · = ρ_{a m} = 0$,备择假设 H1 为:对于某些 1 ≤ j ≤ m,$ρ_{a j}= 0$。在这组假设下构造统计量。
    • 多元混成检验把一元的 Ljung-Box 白噪声检验推广到了多元的情形。

5.3.4 VAR 的脉冲响应函数

VAR 模型研究的是多个时间序列变量之间的相互影响关系,但是模型估计出的参数结果及其显著水平似乎并不能直观地反映这种影响关系,而要想直观地呈现这种关系,就需要使用 脉冲响应函数(impulse response function)。

对脉冲响应函数进行描图是展现 |y| 与 |z|对各种冲击的响应行为的实用方法。

我们从 VAR 的移动平均形式(VMA)出发:

$$
X_t = \mu + \frac{1}{1-\beta_1\beta_2}\sum_{i = 0}^{\infty} A^i\begin{bmatrix} 1 & \beta_1 \ \beta_2 & 1 \end{bmatrix}\varepsilon_{t-i}
$$

通过定义如下符号:

$$
\Phi_{i}=\frac{1}{1-\beta_1 \beta_2}A^i \begin{bmatrix}
1&\beta_1\
\beta_2&1
\end{bmatrix}
$$

VMA 可以写成如下形式:

$$
X_t = \mu + \sum_{i=0}^\infty \Phi_i \varepsilon_{t-i}= \mu + \Phi_0 \varepsilon_t + \Phi_1 \varepsilon_{t-1} + \Phi_2 \varepsilon_{t-2} + \ldots
$$

可以看出,$\Phi_i$ 中的元素刻画了 $\varepsilon_{t-i}$ 的冲击对时间序列变量当期值的影响(也就是偏导数)。

以双变量为例,每个 $\Phi_i$ 都是一个二行、二列的矩阵:

  • 第一行、第一列:$\varepsilon_{yt-i}$ 的单位变化对 $y_t$ 的影响作用;
  • 第一行、第二列:$\varepsilon_{zt-i}$ 的单位变化对 $y_t$ 的影响作用;
  • 第二行、第一列:$\varepsilon_{yt-i}$ 的单位变化对 $z_t$ 的影响作用;
  • 第二行、第二列:$\varepsilon_{zt-i}$ 的单位变化对 $z_t$ 的影响作用。
    $\Phi_i$ 每个位置的元素构成了一个脉冲响应函数,反映了不同滞后期的 $\epsilon_{t-i}$ 的单位变化对 $X_t$ 的影响的变化趋势。
  • 对于每一个误差项,内生变量都对应着一个脉冲响应函数。这样,一个含有 4 个内生变量的 VAR 将有 16 个脉冲响应函数。
  • 对于 VAR(p)模型,有类似的分析,只是脉冲反应函数更加复杂。

5.3.5 格兰杰因果检验

VAR 模型还可用来检验 一个变量与另一个变量是否存在因果关系

  • $x_t$ 对 $y_t$ 是否存在因果关系的检验可通过检验 VAR 模型以 $y_t$ 为被解释变量的方程中是否可以把 $x_t$ 的全部滞后变量剔除掉而完成。
  • 比如 VAR 模型中以 $y_t$ 为被解释变量的方程表示如下:

$$
y_t = \sum_{i=1}^{k} \alpha_i y_{t-i} + \sum_{i=1}^{k} \beta_i x_{t-i} + u_{1,t}
$$

  • 则检验 $x_t$ 对 $y_t$ 存在格兰杰非因果性的零假设是

$$
H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0
$$

  • 为了比较无约束与约束的模型,使用对数似然比检验(LR 检验),得到的统计量在约束参数等于零的零假设下渐近服从卡方分布。
  • 如果 $x_t$ 的任何一个滞后变量的回归参数的估计值存在显著性,则拒绝原假设,$x_t$ 对 $y_t$ 存在格兰杰因果关系。
  • 注意: 在格兰杰因果检验中,我们关心 $\beta$ (二者之间的关系)而非 $\alpha$;关心滞后项系数(而不关心当期 $i=0$ 对应的 $x_t$ 系数)。
  • 关于格兰杰检验的更多细节详见课本 5.8.1 -5.8.2 节。
  • 格兰杰因果关系检验经常被解释为在 VAR 模型中,某个变量是否可以用来提高对其他相关变量的预测能力。因此格兰杰因果关系的实质是一种“预测”关系,而并非真正汉语意义上的“因果关系”。

5.3.6 结构性 VAR 估计

  • 在 20 世纪 80 年代,传统的联立方程模型曾经很流行。这些结构模型越建越大,仿佛能够很好的反应样本的情况,但是对样本外的数据预测能力却很弱。因此 Sim(1980)提出了标准 VAR 模型。
  • 标准 VAR 只能捕捉变量间相关性,脉冲效应函数并不是唯一的,并且不包含变量之间的当期影响。
  • 结构性 VAR(SVAR)借助结构限制条件,将复合冲击分解为结构性冲击,能够揭示经济变量因果机制,并且考虑变量之间的当期影响。这表明:SVAR 是在标准 VAR 模型基础上,通过引入经济理论限制来识别变量间同期因果关系和特定冲击影响。
  • 估计方法:通常需先确定结构限制条件,再进行参数估计。比如可利用 Choleski 分解,它能将协方差矩阵分解为下三角矩阵与其转置的乘积形式,为识别结构性冲击提供一种方式,但变量排序会影响结果。
    SVAR 进行识别
  • 短期约束(Sim-Bernanke 方法)假设某些冲击对特定变量无即时影响。
  • 长期约束(Blanchard-Quah 方法)假设某些冲击长期不影响特定变量。

第五章练习

  1. 已知双变量 VAR 模型的矩阵形式如下:

$$
\begin{pmatrix}y_{1t}\ y_{2t}\end{pmatrix}=\begin{pmatrix}0.5 & 0.3\ 0.3 & 0.5\end{pmatrix}\begin{pmatrix}y_{1t-1}\ y_{2t-1}\end{pmatrix}+\begin{pmatrix}u_{1t}\ u_{2t}\end{pmatrix}
$$

其中,$u_{1t}$ 和 $u_{2t}$ 是白噪声过程,且 Cov ($u_{1t},u_{2t})=0$。下列说法正确的是()

A. 其它因素不变,$u_{1t}$ 变动 1 个单位,$y_{1t}$ 将变动 1 个单位
B. 其它因素不变,$u_{1t}$ 变动 1 个单位,$y_{1t+1}$ 将变动 0.5 个单位
C. 其它因素不变,$u_{1t}$ 变动 1 个单位,$y_{2t}$ 将变动 0.3 个单位
D. 其它因素不变,$u_{1t}$ 变动 1 个单位,$y_{2t+1}$ 将变动 0.3 个单位
E. 其它因素不变,$u_{1t}$ 变动 1 个单位,$y_{1t+2}$ 将变动 0.34 个单位

分析:改写

$$
\begin{cases}
Y_{1 t} = 0.5 y_{1 t-1} + 0.3 y_{2 t-1} + u_{1 t}, \
Y_{2 t} = 0.3 y_{1 t-1} + 0.5 y_{2 t-1} + u_{2 t},
\end{cases}
$$

通过计算脉冲响应函数,分析 $u_{1 t} = 1$ 在时间 $t = 0$ 的冲击:

  • 在 $t=0$(冲击当期)
  • $y_{10} = 0.5 \cdot y_{1,-1} + 0.3 \cdot y_{2,-1} + u_{10} = 0.5 \cdot 0 + 0.3 \cdot 0 + 1 = 1$
  • $y_{20} = 0.3 \cdot y_{1,-1} + 0.5 \cdot y_{2,-1} + u_{20} = 0.3 \cdot 0 + 0.5 \cdot 0 + 0 = 0$
  • 因此,$y_{1 t}$ 变动 1 个单位,$y_{2 t}$ 变动 0 个单位。
  • 在 $t=1$(下一期)
    • $y_{11} = 0.5 \cdot y_{10} + 0.3 \cdot y_{20} + u_{11} = 0.5 \cdot 1 + 0.3 \cdot 0 + 0 = 0.5$
    • $y_{21} = 0.3 \cdot y_{10} + 0.5 \cdot y_{20} + u_{21} = 0.3 \cdot 1 + 0.5 \cdot 0 + 0 = 0.3$
    • 因此,$y_{1 t+1}$ 变动 0.5 个单位,$y_{2 t+1}$ 变动 0.3 个单位。
  • 在 $t=2$(下两期)
    • $y_{12} = 0.5 \cdot y_{11} + 0.3 \cdot y_{21} + u_{12} = 0.5 \cdot 0.5 + 0.3 \cdot 0.3 + 0 = 0.25 + 0.09 = 0.34$
    • $y_{22} = 0.3 \cdot y_{11} + 0.5 \cdot y_{21} + u_{22} = 0.3 \cdot 0.5 + 0.5 \cdot 0.3 + 0 = 0.15 + 0.15 = 0.3$
    • 因此,$y_{1 t+2}$ 变动 0.34 个单位。
    • Ans:选项 A、B、D、E 均正确, C 错误。
  1. 给定模型:

$$
Y_t = 0.5 y_{t-1} + 0.3\varepsilon_{t-1} + \varepsilon_t
$$

已知 $y_3 = 4$, $\varepsilon_3 = 10$, $\varepsilon_4 = 1$。需要预测 $y_5$。

答案:$y_5$ 的预测值为 3.3。(Hint:$\varepsilon_5$ 是未来的误差项。在预测时,我们通常假设未来误差项的期望为 0,因为它们是白噪声。)

  1. 给定向量移动平均(VMA)表示:

$$
\begin{bmatrix}Y_t \Z_t\end{bmatrix}=
\sum_{i = 0}^{\infty}
\begin{bmatrix}
\phi_{11}(i) & \phi_{12}(i) \
\phi_{21}(i) & \phi_{22}(i)
\end{bmatrix}
\begin{bmatrix}
\varepsilon_{y, t-i} \
\varepsilon_{z, t-i}
\end{bmatrix}
$$

问:$\phi_{11}(1)$ 的含义。

  • 这考察的是脉冲响应的含义。 $\phi_{jk}(i)$ 表示滞后 $i$ 期时,冲击 $\varepsilon_{k}$ 对变量 $j$ 的影响系数。
  • 在本题中, $\phi_{11}(i)$ 是 $\varepsilon_{y, t-i}$ 对 $y_t$ 的影响系数。特别地,$\phi_{11}(1)$ 表示滞后 1 期(即 $i = 1$) 时,$\varepsilon_{y, t-1}$ 对 $y_t$ 的影响。
  • 答案: A

时间序列分析自学笔记-05多元时间序列
https://zhangwj235.github.io/posts/fb69de6b/
Author
Jack Zhang
Posted on
May 29, 2026
Licensed under