时间序列分析自学笔记-01差分方程

【Author】：Jack Zhang, SYSU
【Textbook】：Applied Econometric Time Series(4e), Walter Enders
【Original Slides】：https: //www.time-series.net/powerpoint_slides

Chapter 1: Difference Equations 差分方程

[!IMPORTANT] 本章学习目标

阐述随机差分方程如何用来预测，说明该方程如何产生于熟悉的经济模型。

阐述差分方程的解的含义。

阐述如何用迭代求解随机差分方程。

阐述如何求差分方程的齐次解。

阐述求齐次解的过程。

阐述如何求高阶差分方程的齐次解。

阐述如何求确定的差分方程的特解。

阐述如何用待定系数法求随机差分方程的特解。

阐述如何用滞后因子求随机差分方程的特解。

1.1 时间序列模型

当我们拿到一个时间序列模型，我们可能不假思索地就能说出一些直观的信息。比如，GDP 逐年增长的趋势、增速放缓的趋势。这就是直观的描述性分析。

可能思路

但是，很多规律并不那么容易发现——他们潜藏在大量的复杂的数据背后。我们研究模型的目的就是理解这些潜在的规律，并用以预测。这时，模型的作用就是 提取特征，用统计学的语言使得这些特征从模糊的感觉转变为确切的定理。

那么，有什么方法可以 “提取特征” 呢？ 当前，时间序列分析主要有两大“流派”——统计时间序列分析 和 机器学习方法。统计时间序列分析基于统计学方法对时间序列的概率特性进行估计，一般基于（线性）随机过程假设。我们之前学习的 AR 模型、MA 模型、ARMA 模型等都属于这一类。另一类是机器学习方法，顾名思义，是基于机器学习方法从历史或相关序列中学习时间序列预测的方法。比如基于近邻的方法、RNN/LSTM、Transformer、TCN、Meta-Learning 等。我们目前主要学习的是统计时间序列分析方法。

1.1.1 时间序列分析的用途

传统用途：预测
- 基于线性模型 $y_{t+1} = a_0 + a_1 y_t + \varepsilon_{t+1}$，已知当期 $y_t$，预测下一期期望 $E_t[y_{t+1}] = a_0 + a_1 y_t$。
- 那么，$t+2$ 期？在第一期的基础上递推。
  - $y_{t+2}=a_0+a_1y_{t+1}+\varepsilon_{t+2}$
  - $E_{y_{t+2}}=a_0+a_1E_{y_{t+1}}=a_0+a_1(a_0+a_1y_t)=a_0+a_1a_0+(a_1)^2y_t$
- “递推”的本质就是【迭代】，即本章的核心内容。
- 例如：通过滞后一期的价格预测下一期价格，GDP 预测。
现代用途：
- 动态关系捕捉：分析变量间的滞后影响（如货币政策对经济的滞后效应）。
- 假设检验：验证经济理论（如随机游走假设）。
- 发展“典型事实”：从数据中提炼规律（如商业周期的波动特征）。

1.1.2 典型的时间序列问题

【单方程模型】随机游走假设：
- 模型：$y_{t+1} = y_t + \varepsilon_{t+1}$，即 $\Delta y_{t+1} = \varepsilon_{t+1}$。
- 检验：对更一般的方程 $\Delta y_{t+1} = a_0 + a_1 y_t + \varepsilon_{t+1}$，需验证 $a_0 = a_1 = 0$。
- 第 2 章到第 4 章将再次讨论如何恰当地估计单方程模型。
【诱导方程和结构方程】
- 结构方程（structural equation）的内生因变量依赖于另一个内生变量（自变量）的当期实现值。
- 诱导方程（reduced-form equation，我们也常说是简约式，例如计量中的 IV 估计）则是将内生变量表示成该变量 滞后值、其他内生变量的 滞后值、外生变量 的当期和过去值以及 扰动项 的函数。
- 我们可以简单的用“是否自变量纯粹为滞后变量”来判别。

[!Example]

【例】
$$
\begin{cases}
y_t = c_t + i_t \
c_t = \alpha y_{t-1} + \varepsilon_{ct} \quad 0 < \alpha < 1 \
i_t = \beta (c_t - c_{t-1}) + \varepsilon_{it} \quad \beta > 0
\end{cases}\notag
$$

消费函数中的当期消费仅仅依赖于滞后收入 $y_{t-1}$ 和扰动项 $\varepsilon$ ，它已经表示成了诱导方程。

而投资函数还不是诱导方程，因为当期投资还依赖于当期消费。那么，它的投资函数的诱导方程是什么？

$$
\begin{align}
i_t &= \beta (c_t - c_{t-1}) + \varepsilon_{it} \notag \
&= \beta (\alpha y_{t-1} + \varepsilon_{ct} - c_{t-1}) + \varepsilon_{it} \notag \
&= \alpha \beta y_{t-1} - \beta c_{t-1} + \beta \varepsilon_t + \varepsilon_{it} \notag
\end{align} \notag
$$

【练习】：请推导 $y_t$ 的诱导方程。如果消去所有 $c$ 呢？

我们可以进一步简化得到下面的形式：

$$
y_t = ay_{t-1} + by_{t-2} + x_t \notag
$$

这是一个单变量诱导方程，$y_t$ 完全被表示为其滞后值和干扰项的函数。单变量模型用于预测特别有效，我们只需根据它当期和过去的实现值，就可对序列进行预测。

在学完第 2 章到第 4 章阐述的单变量时间序列分析方法后，第 5 章讨论当所有变量都被当作联合内生变量时的多变量模型估计。该章也讨论从已估诱导模型还原到结构模型所需的约束条件。

【误差纠正】无偏远期汇率（UFR）假设：
- 模型：$s_{t+1} = f_t + \varepsilon_{t+1}$，其中 $s_{t+1}$ 为未来即期汇率，$f_t$ 为当前远期汇率。
- 回归检验：$s_{t+1} = a_0 + a_1 f_t + \varepsilon_{t+1}$，要求 $a_0 = 0$、$a_1 = 1$，且残差 $\varepsilon_{t+1}$ 均值为零。
- 调整机制：若 $s_{t+1} \neq f_t$，后续汇率和远期利率会通过下面的误差纠正模型联立调整：
  - 如果即期汇率与远期汇率相等（$s_{t+1} = f_t$），则即期和远期汇率倾向于保持不变。
  - 如果即期与远期汇率之差为正，即 $s_{t+1} - f_t>0$，则预期：即期汇率会趋于下降，远期汇率会趋于上升。

$$
\begin{cases}
s_{t+2} = s_{t+1} - a(s_{t+1} - f_t) + \varepsilon_{s, t+2} \
f_{t+1} = f_t + b(s_{t+1} - f_t) + \varepsilon_{f, t+1} \notag
\end{cases}
$$

【非线性动态模型】趋势-周期关系：
- 分解公式：$y_t = Trend + Cycle + Noise$。
- 趋势：长期稳定增长或下降（如 GDP 的长期趋势）。
- 周期：围绕趋势的短期波动（如商业周期）。
- 噪声：随机不可预测部分（如突发政策冲击）。
- 应用：摩擦性失业（Noise）、结构性失业（Trend，如房地产业）、周期性失业（Cycle，如经济危机）

第 7 章将专门讨论一些具有更为复杂的 动态结构模型 的估计。

1.2 平稳性

平稳性是时间序列分析的基础。

平稳性的存在使得不同时间点的随机变量具有类似的统计性质，这是统计推断和预测的基础。类比随机实验，任何一次实验的统计性质是一致的，因此，可以进行统计推断。

平稳序列围绕 x 轴上下波动，非平稳序列则无序波动。平稳的本质是让系统稳定，让变量收敛。

平稳性有 严平稳（strictly stationary）和 弱平稳（weakly stationary）之分。

严平稳是非常强的假设，它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时，该序列才被认为平稳。该假设使时间序列与无数次随机实验一致，这难以用经验方法验证。
弱平稳又被称为宽平稳。弱平稳不对随机变量的分布作要求，这就类似于每一次随机实验，可以是不同的实验，但任意两次实验之间存在一定关系，即均值和协方差。弱平稳下数据的时间序列图是围绕一个常数水平以相同的幅度上下波动。弱平稳性使我们可以对未来观测进行推断，即预测。
严平稳太过严格，我们通常考虑弱平稳序列。

[!NOTE] 弱平稳的定义：

对于任意整数 $l$，如果 $y_t$ 的均值，以及 $y_t$ 和 $y_t-l$ 的协方差不随时间而改变，那么时间序列 $y_t$ 是弱平稳的。

换言之，当：$\mathbb{E}(y_t)$ 是常数、$\mathbb{Cov}(y_t, y_{t-l})$ 只依赖于 $l$ 时，时间序列 $y_t$ 是弱平稳的。

其中，$\gamma_l = \mathbb{Cov}(y_t, y_{t-l})$ 称为 $y_t$ 的间隔为 $l$ 的 自协方差，它满足：
（1）当 $l=0$ 时， $\gamma_0 = \mathbb{Cov}(y_t, y_t) = \mathbb{Var}(y_t)$；
（2）$\gamma_l = \gamma_{-l}$ 这表明自协方差对于“预测未来“和”追溯过去”都是适用的。

对应的，我们也可以定义 自相关系数。$\rho = \dfrac{\gamma_l}{\gamma_0}$，也即是 $\rho = \dfrac{\mathbb{Cov}(y_t, y_{t-l})}{\mathbb{Var}(y_t)}$

或者，我们更通俗地认识：

[!Tip] 弱平稳（协方差平稳）需满足的条件：

均值恒定：$E(y_t) = \mu$（各时期数学期望恒定）

方差恒定：$\text{Var}(y_t) = \sigma^2$（各时期方差恒定）

协方差仅依赖时间间隔（而不随时间变化）：$\text{Cov}(y_i, y_j) = \gamma_{|i-j|}$（任意两时期的协方差仅与时间间隔绝对值有关）

怎么好像多了一个条件？事实上，方差恒定可以被涵盖在协方差不随时间变化的条件中。

1.3 差分方程及其解

1.3.1 什么是差分？

我们首先认识一下“差分算子”，虽然名字很陌生，但事实上我们在学习微积分的时候就已经了解它了。让我们回忆亿下高数的导数内容：

[!Note] 导数的定义

导数描述了一个函数在某一点处的变化率。导数的定义基于极限的概念。

给定一个实数函数 $f(x)$，如果存在极限
$$
f’(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} \notag
$$
那么，这个极限值称为函数 $f(x)$ 在点 $x$ 处的导数。或者，我们常简写为：
$$
f’(x) = \lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} \notag
$$

$\Delta$ 就是差分算子。一阶差分本质上就是做差。

微积分中允许自变量的变化趋近于零。但由于大多数经济数据都是离散型的，所以，允许时间跨度大于零会更有益。运用差分方程时，我们将单位标准化，使 $h$ 代表时期（例如，$h=1$）的单位变化。
一阶差分 $\Delta y_t = y_t - y_{t-1}$。
二阶差分 $\Delta^2 y_t \equiv \Delta(\Delta y_t) = \Delta(y_t - y_{t-1}) = (y_t - y_{t-1}) - (y_{t-1} - y_{t-2}) = y_t - 2y_{t-1} + y_{t-2}$
类似地，可以给出 n 阶差分的定义。此时，我们已冒险将差分方程理论推广得过远。在时间序列分析中，很少需要使用差分。在实际应用中，几乎不会使用 3 阶及更高阶的差分方程。
为什么是 “冒险”？——类比于天气预报，更长期限的预测更失真。在第 1.4.2.1 节中（1.4.2.1 迭代法），我们有更数理直观的解释。

1.3.2 什么是差分方程？

通常形式下，差分方程 将变量表示为该变量滞后值、时间和其他变量的函数。

[!Note]

趋势性：$T_t = 1 + 0.1t$

季节性：$S_t = 1.6\sin\left(\frac{t\pi}{6}\right)$

无规则：$I_t = 0.7I_{t-1} + \varepsilon_t$

其中，趋势成分和季节成分都是时间 $t$ 的函数，而无规则成分则是它的滞后值和随机变量 $\varepsilon$ 的函数。

由于大部分情况下，我们讨论的是线性时间序列，可以只考察带常数系数的 $n$ 阶线性差分方程的特例。这种特殊类型的差分方程的形式为：

$$
y_t = a_0 + \sum_{i = 1}^{n} a_i y_{t-i} + x_t \notag
$$

公式的结构可以分解为以下几个部分：

常数项 $a_0$
过去输出值的加权和：$\sum_{i=1}^{n} a_i y_{t-i}$，即从 $t-1$ 到 $t-n$ 的所有过去输出值的线性组合。$a_i$ 是权重。
当前外部输入 $x_t$（驱动因素、激励、推动过程）。它可能是时间、其他变量的当期值或滞后值，和（或）随机干扰项的任一函数。通过恰当地选择推动过程，我们就可以得到大量重要的宏观经济模型。

你可能会差评：这个差分方程看起来一点也不差分。的确，让我们给它变个形：

$$
\Delta y_{t} = y_{t}-y_{t-1}= a_0+(a_1-1) y_{t-1}+\sum_{i = 2}^{n}a_{i}y_{t-i}+x_{t}\notag
$$

它变丑了，也变得更让人眼熟了。

1.4 差分方程的求解方法

1.4.1 差分方程的解

好了，我们现在认识了差分方程。这就够了吗？当然不。我们的目标是估计它，换言之，我们要：求解差分方程。

在求解之前，我们最好还是先明确我们的预期目标，也就是 差分方程的解（solution）。

差分方程的解是将 $y_t$ 值表示为序列 $x_t$ 的元素和 $t$ 的函数。解式中可能包括一些初始条件（initial condtion，即 $y_t$ 的一些给定值）。

[!Tip]
解的主要特征在于：当时间 $t$ 和外部输入的 $x$ 取任何允许值时，它都满足差分方程。这使得我们可以对解进行验证。
换言之，只要满足差分方程，它就是差分方程的解。

【引例】：考察简单差分方程 $\Delta y_t = 2$ 的解

由于 $\Delta y_t = y_t - y_{t-1} = 2$，我们很容易证明 $y_t$ 是公差为 2 的等差数列。$y_t = 2t + c$ 是差分方程 $\Delta y_t = 2$ 的解，这里 $c$ 为任意常数。

根据定义，如果 $2t + c$ 为一个解，则必定满足 $t$ 的所有允许值。因此，对于 $t-1$ 期，有 $y_{t-1} = 2(t-1) + c$，现在将解代入方程得：$2t + c \equiv 2(t-1) + c + 2$。这是一个恒等式。这也说明差分方程的解不是唯一的，$c$ 的任意一个取值都对应着一个解。

我们发现，差分方程的解有点像通项公式。事实上，一阶线性递推数列的通项公式是“常数+等比”；二阶线性递推数列的通项公式是“等比+等比”的形式。

[!Tip]
解是一个函数而非数字。类似于数列的通项公式，我们最终求解差分方程的目标是一个涵盖每一个“特解”的函数，称为“通解”。我们将在后面的迭代法中介绍（尽管这些概念并不依赖于迭代求解方法）。

1.4.2 迭代法求解差分方程

尽管迭代法是一种最麻烦、最耗时的方法，但它很直观。

1.4.2.1 迭代法

一阶方程迭代：
- 方程：$y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$。
- 迭代过程：
  - 第一期 $y_1 = a_0 + a_1 y_0 + \varepsilon_1$。
  - 第二期 $y_2 = a_0 + a_1 y_1 + \varepsilon_2 = a_0(1 + a_1) + a_1^2 y_0 + a_1 \varepsilon_1 + \varepsilon_2$。
  - 第三期 $y_3 =a_0 + a_1 y_2 + \varepsilon_3 = a_0(1 + a_1 + a_1^2) + a_1^3 y_0 + a_1^2 \varepsilon_1 + a_1 \varepsilon_2 + \varepsilon_3$。
  - 第 $t$ 期？

$$
y_t = a_0 \sum_{i = 0}^{t-1} a_1^i + a_1^t y_0 + \sum_{i = 0}^{t-1} a_1^i \varepsilon_{t-i} \notag
$$

[!Tip]
更多次的迭代，就有更大的误差。这在数理上呼应了 1.3.1 什么是差分？关于更长时间序列预测的“冒险”。

极限情况：当 $t \rightarrow ∞$ 时
当 $|a_1| < 1$ 时：【第一项是几何级数，第二项趋于 0】

$$
y_t = \frac{a_0}{1 - a_1} + \sum_{i = 0}^∞ a_1^i \varepsilon_{t-i}\notag
$$

思考：相对于其他情况，我们更关心 $|a_1| < 1$ 的情况。为什么？
- 数理上，这时收敛。站在 $t$ 期的节点上，上一期的 $y_{t-1}$ 是已知的参数。当 $|a_1| \geq 1$，无穷级数发散。
- 仅仅是因为数理上收敛可以求出吗？经济意义是什么？（Hint：类似于 WLS，你认为 2015 年 GDP 对今年 GDP 影响大还是 2024 年 GDP 对今年 GDP 影响大？所以我们应该怎么赋予权重？）
验证：这是 $y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$ 的解吗？代入公式验证是成立的。
如果 反向迭代，这个式子还成立吗？

$$
y_t = a_0 + a_1 y_{t-1} + \varepsilon_t \notag
$$

将 $y_{t-1}$ 代入上述表达式中：

$$
\begin{align}
y_t &= a_0 + a_1 [a_0 + a_1 y_{t-2} + \varepsilon_{t-1}] + \varepsilon_t \notag\
& = a_0 (1 + a_1) + a_1 \varepsilon_{t-1} + \varepsilon_t + a_1^2 [a_0 + a_1 y_{t-3} + \varepsilon_{t-2}] \notag
\end{align}\notag
$$

当 $|a_1| < 1$ 时，$t \rightarrow ∞$ 的极限情况：

$$
y_t = \frac{a_0}{1 - a_1} + \sum_{i = 0}^\infty a_1^i \varepsilon_{t-i}\notag
$$

通解：在第 1.4.1 节（1.4.1 差分方程的解）最后，我们提到：差分方程的解有点像通项公式。那么，应该能够写出一个通解，以涵盖前面的各个解（称为特解）。课本对通解的提出比较突兀，这是因为涉及了齐次解的内容，我们在第 1.4.2.2 节讨论这一点。

1.4.2.2 齐次解和通解

齐次解：
- 前面我们提到的是 $y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$，仅考虑其中的齐次部分，就是齐次方程。
- 一阶齐次方程：$y_t = a_1 y_{t-1}$，这可以被视作等比数列，通项公式还记得吗？
- 该齐次方程的解称为 齐次解（homogeneous solution），为 $y_t =A×(a_1)^t= A a_1^t$（A 任取）。
- 收敛条件：$|a_1| < 1$。这与 1.2 平稳性是呼应的。

[!Note] 一阶齐次方程的齐次解与平稳性

当 $|a_1| < 1$ 时：

当 $t$ 趋于无穷大时，$a_1^t$ 收敛于零。

如果 $0 < a_1 < 1$，则称为直接收敛。

如果 $-1 < a_1 < 0$，则称为震荡收敛。

当 $|a_1| > 1$ 时：

齐次解不稳定。

如果 $a_1 > 1$，齐次解随 $t$ 的增大趋于无穷大。

如果 $a_1 < -1$，齐次解是震荡发散性的。

当 $a_1 = 1$ 时：任意一个常数 $A$ 都满足齐次方程 $y_t = y_{t-1}$。

当 $a_1 = -1$ 时，方程的解正负交替变化：$t$ 取偶数，$a_1^t = 1$；$t$ 取奇数，$a_1^t = -1$。

通解：正如我们在第 1.4.1 节（1.4.1 差分方程的解）最后部分所指出的，差分方程的解更像一种通项公式。那么，应该能够写出一个通解，以涵盖 $y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$ 的所有特解。在第 1.4.2.1 节（1.4.2.1 迭代法）中，我们考虑到了一个比较特殊的特解：当 $t \rightarrow ∞$ 时的特解：

$$
y_t = \frac{a_0}{1 - a_1} + \sum_{i = 0}^∞ a_1^i \varepsilon_{t-i}\notag
$$

现在，我们构造通解：其两个组成部分正是齐次解、特解。如上所述，齐次解为 $y_t = A a_1^t$，A 可以任意取值。

$$
y_t = A a_1^t + \frac{a_0}{1 - a_1} + \sum_{i = 0}^{\infty} a_1^i \varepsilon_{t-i} \notag
$$

在通解的基础上，如果我们再施加初始条件 $y_0$，就可以消去任意常数 A 了。

1.4.3 解差分方程的通用步骤

我们已经分析了一阶的情况，现在考虑更高阶的。迭代法求解方程不宜用于高阶方程，在复杂的代数式面前，任何试图求解的努力都是徒劳的。那么，有什么好办法呢？

在经济分析中，出现更高阶的差分方程并不奇怪。根据萨缪尔森模型(1939)得到的 GDP 的诱导方程（见 1.1.2 典型的时间序列问题），就是 二阶差分方程 的例子。此外，在时间序列计量经济学中对二阶和更高阶差分方程的估计也相当典型。

[!TIP] 【通用步骤】
一阶例子中的结论直接适用于 n 阶差分方程。一般情况下，寻找特解更为困难，并且还有 n 个不同的齐次解。但是，解答时总是遵照以下四个步骤。

第 1 步：建立齐次方程，求出 n 个齐次解；

第 2 步：求出一个特解；

第 3 步：求特解和所有齐次解的一个线性组合，求和得出通解；

第 4 步：将初始条件代入通解中，消去任意常数。

要考察齐次差分方程的解法，首先，我们考察二阶差分。按照上面的步骤，我们做个例题：

[!Note] 【例 1】求解 $y_t = 0.9y_{t-1} - 0.2y_{t-2} + 3$，初始条件 $y_{0}=13$，$y_{1}=11.4$

第 1 步：建立齐次方程

$$
y_t - 0.9y_{t-1} + 0.2y_{t-2} = 0 \notag
$$

找到齐次解：稍后我们将说明如何找到完整的齐次解。现在，我们直接给出两个齐次解为：

$y^h_{1t} = (0.5)^t \quad \text{和} \quad y^h_{2t} = (0.4)^t$

要证明第一个解，应注意到 $y^h_{1,t-1} = (0.5)^{t-1}$ 和 $y^h_{1,t-2} = (0.5)^{t-2}$。因此，如果满足：$(0.5)^t - 0.9(0.5)^{t-1} + 0.2(0.5)^{t-2} = 0$，那么 $y^h_{1t}$ 就是一个解。等式两边同除以 $(0.5)^{t-2}$，问题就变为是否满足下式：$(0.5)^2 - 0.9(0.5) + 0.2 = 0$。显而易见，确实等于零，同理也可验证另一个。

第 2 步：求出一个特解。

显然，很容易证明特解 $y_{t}^{p}=10$ 也是一个解，因为 $10=0.9\cdot(10)-0.2\cdot(10)+3$。

第 3 步：合并特解和两个齐次解的线性组合

$$
y_{t}= a_1(0.5)^{t}+A_{2}(0.4)^{t}+10 \notag
$$

这里，$a_1$ 和 $A_{2}$ 为任意常数。

第 4 步：序列初始条件

在 0 期和 1 期，解必须满足

$$
\begin{cases}
13 = a_1+A_{2}+10 \
11.3 = a_1\cdot(0.5)+A_{2}\cdot(0.4)+10
\end{cases}\notag
$$

联立求解，得 $a_1=1,A_{2}=2$。因此，$y_t$ 的解为

$$
y_{t}=(0.5)^{t}+2(0.4)^{t}+10 \notag
$$

1.4.4 高阶齐次解：特征根

第一步很麻烦，有没有什么办法？事实上，从验证齐次解的方式中，我们可以窥见特征根分析的端倪。下面，我们更系统地介绍如何得到齐次解。

设数列 ${x_n}$ 的前两项 $x_1$ 和 $x_2$ 已知，且满足递推关系 $x_{n+1} = px_n + qx_{n-1}$。则称方程 $x^2 - px - q = 0$ 为该数列的 特征方程。特征方程的根为该数列的 特征根。

[!tip]

方程：$y_t - a_1 y_{t-1} - a_2 y_{t-2} = 0$。

特征方程：$\alpha^2 - a_1 \alpha - a_2 = 0$。

根的情况：

实根且不同：$y_t = A_1 \alpha_1^t + A_2 \alpha_2^t$。

实根且相同：$y_t = (A_1 + A_2 t) \alpha^t$。

虚根：用欧拉公式表示为 $y_t = r^t (C_1 \cos \theta t + C_2 \sin \theta t)$，其中 $r = \sqrt{a_2}$，$\theta = \arctan\left(\frac{\sqrt{4a_2 - a_1^2}}{a_1}\right)$。

稳定性条件：所有特征根绝对值小于 1。稳定性条件要求 r < 1，因此，当把根绘制在复数平面上时，必须让它们位于一个半径为 1 的圆内。在时间序列文献中，稳定性条件的简单表述是：所有的特征根都位于单位圆之内。

我们再看个例子：

[!note] 【例 2】：求齐次解

方程：$y_t = 0.2 y_{t-1} + 0.35 y_{t-2}$。

特征方程：$\alpha^2 - 0.2 \alpha - 0.35 = 0$，解得特征根 $\alpha_1 = 0.7$，$\alpha_2 = -0.5$。

齐次解：$y_t = A_1 (0.7)^t + A_2 (-0.5)^t$。

很好！我们会算第一步了。返回刚才的例 1，我们可以重新算一下。

1.4.5 特解的处理

除了第一步对于高阶齐次解计算有着精妙的技巧，在例 1 中，我们非常不负责任的“显然易得”了特解。也很显然，我们的运气可能不总是能让我们“显然”发现特解。基于此，我们这一小节讨论特解的情况。需要强调的是，由于特解本就是“妙手偶得”的，我们在（1.4.4 高阶齐次解：特征根）中讨论的所有找特解方法都只是方便找特解的技巧。

1.4.5.1 推动过程为零的特解

寻找差分方程的特解需要智慧和毅力，方法的选取主要取决于序列 ${x}$ 的形式。遵循由浅入深的原则，我们先讨论一种特殊情况的特解，即 当 $x_t=0$ 时 的特解。

当序列 ${x_{t}}$ 的所有元素均为零时，差分方程变为

$$
y_{i} = a_0 + a_1y_{i-1} + a_2y_{i-2} + \cdots + a_ny_{i-n}\notag
$$

这和前面的例 2 非常相似，事实上，例 2 是给定参数的二阶特例。在第 1.4.4 节（1.4.4 高阶齐次解：特征根）中，我们只算出了例 2 的齐次解，还没有得到方程的通解。遵循第 1.4.3 节（1.4.3 解差分方程的通用步骤）的通用步骤，我们对方程 $y_t = 0.2 y_{t-1} + 0.35 y_{t-2}$ 的求解还需要找到特解。通过下面对 $n$ 阶情况的讨论，我们应该能够为例 2 的求解画上圆满的句号。

由于我们正在找的是特解，所以我们不用顾及任何“大而全”的普适性，只需要找最特殊的就足够了。直觉告诉我们，$y$ 取相同值（即 $y_i=y_{i-1}=\cdots=c$）应该是目标差分方程最特殊的解了。虽然我们在这里也不可避免的“显然易得”了，但相较于例 1 的“显然”，这里的直觉容易得多。将常解 $y_i=c$ 代入得到 $c=a_0+a_1c+a_2c+\cdots+a_nc$，因而

$$
c =\dfrac{a_0}{1-a_1-a_2-\cdots-a_n}\notag
$$

由于分式的分母不能为 0，我们分类讨论：

只要 $(1-a_1-a_2-\cdots-a_n)$ 不等于零，$c$ 值就是差分方程的解。因此，差分方程的特解就为 $y^p_i=\dfrac{a_0}{1-a_1-a_2-\cdots-a_n}$。

如果 $1-a_1-a_2-\cdots-a_n=0$，$c$ 值是待定的，必须寻找解的其他形式。课本的讨论为我们提供了下一步的方向：我们应该考虑尝试 $y^p_i=ct$ 作为解，如果还不成立，就继续尝试 $y^p_i=c \cdot t^2$、$y^p_i=c \cdot t^3$…… 总有一个会是特解的。

接下来，我们兑现前面的承诺，对例 2 的特解进行讨论。

[!Note] 【例 2】的特解

对于方程：$y_t = 0.2 y_{t-1} + 0.35 y_{t-2}$，我们取常解 $y_i=c$ 的特殊情况。代入得：

$$
c =\dfrac{a_0}{1-a_1-a_2}\notag
$$

其中，$a_0=0$，$a_1=0.2$，$a_2=0.35$。我们得到差分方程的特解 $c$，发现就等于 0。更正式一点的写法是：

$$
y^p_i =\dfrac{a_0}{1-a_1-a_2}= 0 \notag
$$

有了特解 $y^p_i=0$ 和齐次解 $y_t = A_1 (0.7)^t + A_2 (-0.5)^t$，我们就可以得到该差分方程的通解了。

1.4.5.2 待定系数法

那么，如果特解比较随机，怎么处理？

当序列 ${y_t}$ 含有随机成分时，有两种求特解的方法。我们先讨论待定系数法。

待定系数法的关键在于，线性方程具有线性解。因此，一个线性差分方程的特解必定是线性的。此外，求得的解仅依赖于时间、常数和推动过程的元素。因此，即使解的系数未知，仍有可能求得解的准确形式。这种方法涉及一个假设的解，可称这个假设的解为 挑战解(challenge solution)，它是实际方程中应当出现的所有项的线性函数。这样，问题就转化成了寻找所有满足差分方程解的待定系数的值。

1.4.5.2.1 含有确定性成分的情况

我们首先看两个含有确定性成分的情况：

情况 1：含指数的例子。

在这种情况下，我们令 $x_t$ 取指数形式 $b \cdot (d)^{rt}$，其中，b、d、r 都为常数。由于 r 通常被解释为增长率，我们在有关增长的研究中更可能碰到它。我们运用一阶差分方程阐述求解过程：

$$
y_{i} = a_0 + a_1y_{i-1} +b \cdot (d)^{rt} \notag
$$

特别地，当 $b=0$ 的时候，差分方程退化为 $x_t=0$ 的差分方程。事实上，我们可以把 $(d)^{rt}$ 看作 ${(d^{r})^t}$，即把 $d^{r}$ 看作整体。

我们可以 假设特解的形式 为：（即挑战解为）

$$
y_{t}^{p}= c_0+c_1({d^{r})}^t \notag
$$

其中，$c_0$ 和 $c_1$ 都是常数。如果该方程确实是一个解，可以将其代入递推公式得到一个恒等式。通过恰当的代换，得到

$$
c_0+c_1{d^r}^t = a_0+a_1 [c_0+c_1 {d^r}^{(t-1)}]+b{d^r}^t \notag
$$

整理这个公式，如果这个公式成立，有 $c_0$ 和 $c_1$ 满足

$$
c_0 =\frac{a_0}{1-a_1}, c_1 =\frac{bd^r}{d^r-a_1} \notag
$$

因此，特解就为

$$
y^p_t =\frac{a_0}{1-a_1}+\frac{bd^r}{d^r-a_1} \cdot {d^r}^t \notag
$$

这个解的特点就是：$y^p_t$ 等于常数 $\dfrac{a_0}{1-a_1}$ 加上一个增速为 $r$ 的表达式。

注意，对于 $|d^r|<1$，特解会收敛为 $\dfrac{a_0}{1-a_1}$。

同样地，在 $a_1=1$ 或 $a_1=d^r$ 的时候，必须寻找解的其他形式。这时的技巧是：当 $a_1 =1$ 时，尝试使用 $c_0=ct$ 作为解；而当 $a_1=d^r$ 时，尝试使用 $c_1=tb$ 作为解。其中所用的方法完全适用于高阶方程。

情况 2：确定性时间趋势。
这时，序列 ${x_t}$ 可表示为关系式 $x_t= bt^d$，其中 b 为常数，d 为正整数。

$$
y_t = a_0 + \sum_{i = 1}^{t} a_i y_{t-i} + d \cdot t^d \notag
$$

由于 $y_t$ 依赖于 $t^d$，则 $y_{t-1}$ 依赖于 $(t-1)^d$，$y_{t-2}$ 依赖于 $(t-2)^d$，等等。这样，特解的形式为：

$$
y_t^p = c_0 + c_1 t + c_2 t^2 + \cdots + c_d t^d \notag
$$

为找到 $c_i$ 的取值，可将特解代入，从 $c_i$ 的恒等式中得到每个 $c_i$ 的取值。

【发现】：这个特解的假设和情况 2 正好形成对照：

特解的情况

$x_t$ 形式	假设的特解（一阶差分）
令$x_t$取指数形式$b \cdot d^t$	$y_{t}^{p}= c_0+c_1 d^t$
令 $x_t$ 取幂函数形式 $b \cdot t^d$	$y_t^p = c_0 + c_1 t^d$

尽管 $d$ 可以取多个值，但在经济应用中，模型中通常含有一个线性时间趋势 ($d=1$)。举个例子，请考察 2 阶差分方程 $y_t = a_0 + a_1 y_{t-1} + a_2 y_{t-2} + bt$。假设解为：

$$
y_t^p = c_0 + c_1 t \notag
$$

其中，$c_0$ 和 $c_1$ 都是待定系数，试着将这个“挑战解”代入该 2 阶差分方程，得到

$$
c_0 + c_1 t = a_0 + a_1 [c_0 + c_1 (t - 1)] + a_2 [c_0 + c_1 (t - 2)] + bt \notag
$$

现在选择 $c_0$ 和 $c_1$ 的值，使得对 $t$ 的所有可能取值都为恒等式。如果合并所有常数项和包括 $t$ 在内的所有项，则所要求的 $c_0$ 和 $c_1$ 的取值就为

$$
\begin{cases}
c_1 = \dfrac{b}{1 - a_1 - a_2} \
\
c_0 = \dfrac{a_0 - (2a_2 + a_1)c_1}{1 - a_1 - a_2} =\dfrac{a_0}{1 - a_1 - a_2} - \dfrac{b \cdot (2a_2 + a_1) }{(1 - a_1 - a_2)^2}
\end{cases}\notag
$$

1.4.5.2.2 一般化

我们已经考虑了含有确定性成分的情况，现在我们外推到一般化的情况。也就是说，我们考虑包含 $\varepsilon_t$ 的 ${x_t}$。这时，我们应该如何使用待定系数法？

一阶方程：$y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$。

序列 ${y_t}$ 的特点是特征解仅依赖于常数项、时间 $t$ 和序列 ${\varepsilon_t}$。因此，我们设定的挑战解应该包括常数项、时间趋势项和关于 $\varepsilon$ 的项。

考虑到 $\varepsilon$ 是白噪声（零均值、无自相关），其特解需体现历史扰动的累积效应，即：过去每一期误差项 $\varepsilon$ 各自对当前值 $y_t$ 的影响求和。由于各期对现在的影响不尽相同（越接近现在的权重应该更高，这在第 1.3.2 节中曾阐释过），因此对于每个误差项都应该配有对应的权重参数（记为 $\alpha$，$0<\alpha<1$）。由此，特解中应该包含 $\sum_{i=0}^{\infty} \alpha_i \varepsilon_{t-i}$。

综上，我们设定的挑战解为：

$$
y_t = b_0 + b_1 t + \sum_{i = 0}^{\infty} \alpha_i \varepsilon_{t-i} \notag
$$

代入求解得，$b_1=0$，$b_0 = \frac{a_0}{1 - a_1}$。

二阶方程：$y_t = a_0 + a_1 y_{t-1} + a_2 y_{t-2} + \varepsilon_t$
- 挑战解：$y_t = b_0 + b_1 t + b_2 t^2 + \sum_{i=0}^\infty \alpha_i \varepsilon_{t-i}$。
- 代入求解：通过比较系数确定 $b_0, b_1, b_2$ 及 $\alpha_i$。

首先，考虑当 $a_1 + a_2 \neq 1$ 时的情况，由于 $(1 - a_1 - a_2)$ 不为零，那么，$b_2$ 的取值必须等于 0。在 $b_2 = 0$ 的情况下，又因为 $t$ 的系数必须等于零，所以，$b_1$ 也应为 0。在给定 $b_1 = b_2 = 0$ 时，必得 $b_0 = \dfrac{a_0}{1 - a_1 - a_2}$。

相反，如果 $a_1 + a_2 = 1$，则 $b_t$ 的解的取值取决于 $a_0, a_1$ 和 $a_2$ 的特定取值。

关键在于齐次方程的稳定性条件就是特解的收敛条件。如果齐次方程的任意特征根都等于 1，那么，多项式时间趋势就将出现在特解中。多项式的阶数就是单位特征根的个数，这一结论也可推广到高阶方程。

1.4.5.3 滞后算子

如果不需要知道特解中的系数的实际值，则运用滞后算子（lag operator）的方法通常比待定系数法更为方便。

定义：滞后算子 $L$ 被定义为线性算子，因而对 $y_t$ 取任意值，均有：

$$
L^i y_t = y_{t-i} \notag
$$

滞后算子 $L$ 仅意味着将序列 $y_t$ 向后移动一期，即 $L{y_t} = y_{t-1}$。请问，$L^2_{y_t}=?$

性质:
1. 常数的滞后值为常数： $L_c = c$。
2. 分配律：$L(y_1 + y_2) = Ly_1 + Ly_2 = y_{t-1,1} + y_{t-1,2}$。
3. 结合律： $L^iLy_j = L^{i+j}y = y_{t-i-j}$，注意 $L^iy_t = y_{t-i}$。
4. 取负次方：实际上为超前算子: $L^{-1}y_t = y_{t+1}$。为了便于解释，可定义 $j = -i$，并设 $L^jy_t = y_{t+j}$。
5. 无限求和：
  - 对于 $|\alpha| < 1$，有 $(1 + a L + a^2 L^2 + \cdots)L^n y_t = \dfrac{y_t}{1 - a L}$。
  - 对于 $|\alpha| > 1$，有 $[1 + (aL)^{-1} + (aL)^{-2} + (aL)^{-3} + \cdots]y_t = \dfrac{-aL{y_t}}{1 - aL}$。
滞后算子的应用：

滞后算子为书写差分方程提供了一种简洁的记号。运用滞后算子，可以将 p 阶方程 $y_t = a_0 + a_1 y_{t-1} + \cdots + a_p y_{t-p} + \varepsilon_t$ 写为：

$$
(1 - a_1 L - a_2 L^2 - \cdots - a_p L^p) y_t = A(L) y_t = a_0 + \varepsilon_t \notag
$$

其中，$A(L)$ 为多项式 $(1 - a_1 L - a_2 L^2 - \cdots - a_p L^p)$。它的成立是基于此前的 $y$ 对于现在而言都是参数。

由于 $A(L)$ 可被视为滞后算子的多项式，因此记号 $A(1)$ 可用于表示所有系数之和：

$$
A(1) = 1 - a_1 - a_2 - \cdots - a_p \notag
$$

用滞后算子解线性差分方程：
再次考虑一阶方程 $y_{t}=a_0+a_1y_{t-1}+\varepsilon_{t}$，式中，$\mid a_1 \mid <1$。根据 L 的定义，构造

$$
y_t = a_0+a_1Ly_t+\varepsilon_t \notag
$$

解 $y_t$，我们得到：

$$
y_{t}=\frac{a_0+\varepsilon _{t}}{1-a_1L} \notag
$$

根据性质(1)，可知 $La_0=a_0$，因而 $\dfrac{a_0}{1-a_1L}=a_0+a_1a_0+a_1^{2}a_0+\cdots =\dfrac{a_0}{1-a_1}$。

根据性质(5)，可知 $\dfrac{\varepsilon_{t}}{1-a_1L}=\varepsilon_{t}+a_1\varepsilon_{t-1}+a_1^{2}\varepsilon_{t-2}+\cdots$，合并解的两个部分，便得到迭代法得到的特解。

【一般化】滞后算子可以把方程表示为：

$$
y_t = a_0 + a_1 y_{t-1} + \cdots + a_p y_{t-p} + \varepsilon_t + \beta_1 \varepsilon_{t-1} + \cdots + \beta_q \varepsilon_{t-q} \Rightarrow A(L) y_t = a_0 + B(L) \varepsilon_t \notag
$$

其中，$A(L)$ 和 $B(L)$ 分别为 p 阶和 q 阶的多项式。该模型的特解为：

$$
y_t = \frac{a_0}{A(L)} + \frac{B(L)\varepsilon_t}{A(L)}\notag
$$

如果想了解序列的实际系数，最好采用待定系数法，滞后算子的魅力在于能够简洁地标记特解。

1.5 自回归（AR）模型

不知道你是否有注意到，在 1.4 节中，我们对差分方程的讨论主要围绕着的是 1.3.2 节提出的“一种特殊类型的差分方程”。现在，我们正式认识下这个“威名赫赫”的重要模型——自回归模型（Auto-regression Model），简称 AR($p$)。值得注意的是，这一节的内容大多数都已经在前面讲过，如果说前面的讲法更偏数学，这一节的讲法则是更统计学的。

1.5.1 自回归模型

[!Note] 定义（自回归模型）
如果时间序列 ${y_t}$ 能用如下形式表示：

$$
\begin{split}
y_t &= a_0 + a_1 y_{t-1} + a_2 y_{t-2} + \cdots + a_p y_{t-p} + \varepsilon_t \
&= a_0 + \sum_{i = 1}^{p} a_i y_{t-i} + \varepsilon_t \notag
\end{split}
$$

则称 ${y_t}$ 服从 $p$ 阶自回归模型，记为 AR($p$)，其中，p 为模型的阶数， $\varepsilon_t$ 是均值为 0、标准差为 $\sigma_\varepsilon$ 的白噪声序列。

AR($p$) 模型表示：给定过去的数据时，过去的 $p$ 个值 $y_{t-i}(i=1,2,\ldots,p)$ 联合决定 $y_t$ 的条件期望。

1.5.2 AR(1)模型

当阶数 $p = 1$ 时，AR($p$)模型简化为 AR(1)模型，即

$$
y_t = a_0 + a_1 y_{t-1} + \varepsilon_t, \quad \varepsilon_t \sim i.i.d. N(0, \sigma_\varepsilon^2) \notag
$$

AR(1)模型刻画了一个随机过程或时间序列：${r_t, t \in Z}$；
根据 AR(1)模型定义有：
- 条件期望：$E(y_t | y_{t-1}) = a_0 + a_1 y_{t-1}$
- 条件方差：$Var(y_t | y_{t-1}) = \sigma_\varepsilon^2$

1.5.2.1 AR(1)的线性特征

正如我们在 1.4.2.1 迭代法中所做的，将 AR(1)模型的递推可以得到

$$
y_t = a_0 \sum_{i = 0}^{t-1} a_1^i + a_1^t y_0 + \sum_{i = 0}^{t-1} a_1^i \varepsilon_{t-i} \notag
$$

当 $|a_1| < 1 \quad t \rightarrow ∞$，第一项是几何级数，第二项趋于 0，有：

$$
y_t = \frac{a_0}{1 - a_1} + \sum_{i = 0}^∞ a_1^i \varepsilon_{t-i}\notag
$$

这是一个线性时间序列，被称为 MA($∞$) 形式。自然地，我们会问：什么是 MA？MA 是移动平均模型的简写，我们会在 2.1.2 移动平均模型（MA）内容中更详细的介绍它。关于 AR 和 MA 的互推条件，我们也将在 2.3.5.2 可逆性中进一步论述。

1.5.2.2 AR(1)的平稳性

AR(1)模型的平稳性指时间序列 ${y_t}$ 是否是一个平稳时间序列。直观理解，任意给定一个初始值 $y_0$，经过一段时间后，序列可以稳定下来，即围绕某个固定值以相同的幅度上下波动。
不是所有 AR(1)模型刻画的随机过程都是平稳时间序列：当 AR(1)模型刻画了一个平稳的时间序列，则称 AR(1)模型是平稳的；当 AR(1)模型刻画了一个非平稳的时间序列，则称 AR(1)模型是非平稳的。平稳的 AR(1) 模型才能用于预测。
AR(1)模型平稳性的充要条件是：$|a_1| < 1$。

[!Note] 证明：AR(1)模型平稳性的充要条件是：$|a_1| < 1$。

首先，我们简单回顾 1.2 平稳性节对平稳性的介绍：

严平稳太过严格，我们通常考虑弱平稳序列。

弱平稳的定义：当 $E(y_t)$ 是常数、$Cov(y_t, y_{t-l})$ 只依赖于 $l$ 时，时间序列 $y_t$ 是弱平稳的。

然后，我们开始证明：

1. 充分性：
（1）当 $|a_1| < 1$，我们先考察 $E(y_t)$ 是否为常数：

$$
y_t = \dfrac{a_0}{1-a_1} + \sum_{i = 0}^{\infty} a_1^i \varepsilon_{t-i} \quad \Rightarrow \quad \mathbb{E}(y_t) = \dfrac{a_0}{1-a_1} \quad (\text{常数})
$$

（2）然后，我们考察 $|a_1| < 1$ 时的协方差：

$$
\mathbb{Cov}(y_t, y_{t-l}) = \mathbb{Cov}\left(\sum_{i = 0}^{\infty} a_1^i \varepsilon_{t-i}, \sum_{j = 0}^{\infty} a_1^j \varepsilon_{t-l-j}\right)
$$

根据协方差的定义，我们可以将其展开为双重求和：

$$
\mathbb{Cov}(y_t, y_{t-l}) = \mathbb{Cov}\left (\sum_{i = 0}^\infty a_1^i \varepsilon_{t-i}, \sum_{j = 0}^\infty a_1^j \varepsilon_{t-l-j}\right) = \sum_{i = 0}^\infty \sum_{j = 0}^\infty a_1^i a_1^j \mathbb{Cov}(\varepsilon_{t-i}, \varepsilon_{t-l-j})
$$

由于 $\varepsilon$ 是一个方差为 $\sigma^2$ 的白噪声过程，不同时间的 $\varepsilon$ 不相关，则协方差项仅在时间点相等时非零（$=\sigma^2$），即当 $t - i = t - l - j$ 时，也就是 $i = l + j$。因此，双重求和中只有当 $i = l + j$ 时才有贡献。将 $i$ 替换为 $l + j$，我们得到单重求和：

$$
\mathbb{Cov}(y_t, y_{t-l}) = \sum_{j = 0}^\infty a_1^{l+j} a_1^j \mathbb{Cov}(\varepsilon_{t-l-j}, \varepsilon_{t-l-j})= \sigma^2 \sum_{j = 0}^\infty a_1^{l+2j} = a_1^l \cdot \sigma^2 \sum_{j = 0}^\infty (a_1^2)^j = \frac{a_1^l \sigma^2 }{1-a_1^2}
$$

这表明，协方差只依赖于 $l$，与 $t$ 无关。如果认为双重求和转化为单重求和太复杂，2.3.3.1 自相关函数（ACF）还提供了另一种递推的方法。

综上，AR(1)模型在 $|a_1| < 1$ 时满足弱平稳的定义。

2. 必要性
假设 ${y_t}$ 是平稳时间序列，对 AR(1)公式 $y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$ 两边取期望得到：

$$
\mathbb{E}(y_t) = a_0 + a_1 \mathbb{E}(y_{t-1}) \quad \Rightarrow \quad \mathbb{E}(y_t) = \frac{a_0}{1 - a_1}
$$

两边取方差得到：

$$
\mathbb{Var}(y_t) = \mathbb{Var}(a_0 + a_1 y_{t-1} + \varepsilon_t) = a_1^2 \mathbb{Var}(y_{t-1}) + \mathbb{Var}(\varepsilon_t) + a_1 \mathbb{Cov}(y_{t-1}, \varepsilon_t)
$$

根据 $y_t = \frac{a_0}{1 - a_1} + \sum_{i = 0}^∞ a_1^i \varepsilon_{t-i}$，$y_t$ 完全由 $t$ 期及以前的冲击决定，进而 $y_{t-1}$ 完全由 $t-1$ 期及以前的冲击决定，由于冲击之间的独立性，$\mathbb{Cov}(y_{t-1}, \varepsilon_t) = 0$；

【非常重要】基于 ${y_t}$ 平稳的假设，方差在时间上恒定，即 $\mathbb{Var}(y_t)=\mathbb{Var}(y_{t-1})$。

由此可得到：$$\mathbb{Var}(y_t) = \frac{\sigma_\varepsilon^2}{1 - a_1^2}$$

为了使 $\mathbb{E}(y_t) = \dfrac{a_0}{1 - a_1}$ 存在且为常数，则要求 $a_1 \neq 1$ ；

为了使 $\mathbb{Var}(y_t) = \dfrac{\sigma_a^2}{1 - a_1^2}$ 存在且为正常数，则要求 $|a_1| < 1$ 。
即 ${y_t}$ 为平稳序列要求 $|a_1| < 1$。

1.5.2.3 AR(1)的统计特征

在上一节中我们得到：对于平稳 AR(1)序列 $y_t = a_0 + a_1 y_{t-1} + \varepsilon_t$ ，有：$\mathbb{E}(y_t) = \dfrac{a_0}{1 - a_1}$ ，$\mathbb{Var}(y_t) = \dfrac{\sigma_\varepsilon^2}{1 - a_1^2}$。其中 $a_0$ 是截距项，$a_1$ 是滞后项系数。

当 $a_0 = 0$ 时，$\mathbb{E}(y_t) = 0$，这表明没有截距项的 AR(1)模型，时间序列的均值为 0。
当 $a_1 = 0$ 时，此时时间序列 ${y_t}$ 变为白噪声序列，方差最小；当 $a_1 ≠ 0$ 时，序列 ${y_t}$ 的方差变大，这说明时间序列 ${y_t}$ 自相关系数越大，时间序列的方差越大，波动越剧烈。
下面，我们考察 AR(1)模型的自相关系数。根据方程，由于 $$ \mathbb{Cov}(y_t, y_{t-l}) = \frac{a_1^l}{1 - a_1^2} \sigma_\varepsilon^2, $$ 因此自相关系数（如果忘记了自相关系数，请参阅 1.2 平稳性）为： $$ \rho = \dfrac{\mathbb{Cov}(y_t, y_{t-l})}{\mathbb{Var}(y_t)} = \dfrac{\dfrac{a_1^l}{1 - a_1^2} \sigma_\varepsilon^2}{\dfrac{1}{1 - a_1^2} \sigma_\varepsilon^2} = a_1^l. $$ 这说明：当 $∣a_1∣<1$ 时，弱平稳 AR(1) 序列的自相关函数随滞后阶数 $l$ 增大而指数衰减。

1.5.3 AR(2)模型

当阶数 $p = 2$ 时，AR(p) 模型简化为 AR(2) 模型，形式如下：

$$
y_t = a_0 + a_1 y_{t-1} + a_2 y_{t-2} + \varepsilon_t, \quad \varepsilon_t \text{ 是白噪声过程}
$$

1. AR(2)模型的线性性质：首先，将 AR(2) 转换为 VAR(1) 形式：

$$
\begin{pmatrix}
y_t \
y_{t-1} \end{pmatrix}
= \begin{pmatrix}
a_0 \
0 \end{pmatrix} + \begin{pmatrix}
a_1 & a_2 \
1 & 0 \end{pmatrix} \begin{pmatrix}
y_{t-1} \
y_{t-2} \end{pmatrix} + \begin{pmatrix}
\varepsilon_t \
0 \end{pmatrix}
$$

设 $\mathbf{Y}t = (y_t, y{t-1})^\top$，$\mathbf{u}_t = (\varepsilon_t, 0)^\top$，则方程可改写为：

$$
\mathbf{Y}_t = \mathbf{A}_0 + \mathbf{A}1 \mathbf{Y}{t-1} + \mathbf{u}_t
$$

向前递推得到：

$$
\mathbf{Y}_t = \mathbf{A}_0 + \mathbf{A}_1 \mathbf{A}_0 + \mathbf{A}1^2 \mathbf{Y}{t-2} + \mathbf{A}1 \mathbf{u}{t-1} + \mathbf{u}_t = \cdots
= (1 - \mathbf{A}_1)^{-1} \mathbf{A}0 + \mathbf{A}1^\infty \mathbf{Y}{t-\infty} + \sum{i = 0}^\infty \mathbf{A}1^i \mathbf{u}{t-i}
$$

当矩阵 $\mathbf{A}_1$ 的特征值都位于单位圆内时，$\mathbf{A}_1^\infty = 0$，方程可简化为：$$ \mathbf{Y}_t = (1 - \mathbf{A}_1)^{-1} \mathbf{A}0 + \sum{i=0}^\infty \mathbf{A}1^i \mathbf{u}{t-i} $$ 进一步得到 $y_t$ 的表达式：

$$
y_t = (1, 0)(1 - \mathbf{A}1)^{-1} \mathbf{A}0 + \sum{i=0}^\infty b_i \varepsilon{t-i}
$$

其中 $b_i = (1, 0)\mathbf{A}_1^i(1, 0)^\top$，即 $\mathbf{A}_1^i$ 的第 $(1, 1)$ 个元素。 $\mu = (1, 0)(1 - \mathbf{A}_1)^{-1} \mathbf{A}_0$ 。

2. AR(2)模型平稳条件

利用 1.4.5.3 节讲到的滞后算子改写：$y_t = a_0 + a_1 y_{t-1} + a_2 y_{t-2} + \varepsilon_t$ ，得到：
$$
\begin{align*}
\Big(1 - a_1 L - a_2 L^2\Big) y_t = A(L) y_t = a_0 + \varepsilon_t
\end{align*}
$$

其中：$A(L)$ 称为 AR(2)模型的特征多项式。根据特征多项式得到 AR(2)模型的~~特征方程~~：

$$
\begin{align*}
A(x) = 1 - a_1 x - a_2 x^2 = 0
\end{align*}
$$

AR (2) 模型平稳的充要条件是：上述特征方程的根全在单位圆外。

不对啊！这和我们前面 1.4.4 节讲的不一样！在 1.4.4 节中，我们要求特征根在单位圆内！
- 这里用词很讲究：“特征方程的根”而不是“特征根”！
- 1.4.4 节中，特征根对应的特征方程和这个不一样！当时我们的特征方程是：$\lambda^2 - p\lambda - q = 0$。这里的特征方程可以看作是 $x=\dfrac{1}{\lambda}$ 的改写。所以，这里的特征方程应该被叫做 “逆特征方程”。
- 本质上讲，在这里，滞后算子 $L$ 的影响相当于整体除以 $y_t$。而在 1.4.4 节，我们的整体除以 $y_{t-2}$！（对于 AR(p)，1.4.4 节的方法是整体除以 $y_{t-p}$）。
AR(2)平稳的充要条件为： AR(2)模型的特征根均在单位圆内。
【或者】：AR(2)模型平稳的充要条件是：AR(2)模型的逆特征方程的根全在单位圆外。

[!Excercise]
考虑四组 ${a_1, a_2}$ 组合下的 AR(2) 过程平稳性：

$a_1 = 0.4, a_2 = 0.5$

$a_1 = -0.6, a_2 = 0.5$

$a_1 = 0.7, a_2 = -0.1$

$a_1 = 1.2, a_2 = -0.8$

1.5.4 AR(p)模型

我们先写出 AR(p) 模型的形式，然后分析它的线性特征和平稳性特征：

$$
\begin{split}
y_t &= a_0 + a_1 y_{t-1} + a_2 y_{t-2} + \cdots + a_p y_{t-p} + \varepsilon_t \
&= a_0 + \sum_{i = 1}^{p} a_i y_{t-i} + \varepsilon_t \notag
\end{split}
$$

线性特征：类似于 AR(2)，最后递推得到：

$$
y_t = \mathbf{A}_0 (I_p - \mathbf{A}1)^{-1} + \mathbf{A}1^\infty y{t-\infty} + \sum{i = 0}^\infty \mathbf{A}1^i \boldsymbol{u}{t-i}
$$

当特征根均在单位圆内时，为线性时间序列。

平稳性：

AR(p) 模型的特征多项式：

$$
A(L) = 1 - a_1 L - a_2 L^2 - \cdots - a_p L^p
$$

AR(p) 模型对应的逆特征方程：

$$
A(L) = 1 - a_1 L - a_2 L^2 - \cdots - a_p L^p = 0
$$

AR(p) 模型平稳的充要条件：

$$
1 - a_1 L - a_2 L^2 - \cdots - a_p L^p = 0
$$

逆特征方程的所有根均位于 单位圆外（模长 > 1）。
或通过变量替换 $x = 1/L$，方程改写为

$$
x^p - a_1 x^{p-1} - \cdots - a_p = 0
$$

要求所有特征根均位于 单位圆内（模长 < 1）。

#Notes

时间序列分析自学笔记-01差分方程

https://zhangwj235.github.io/posts/c401e40b/

Author

Jack Zhang

Posted on

May 29, 2026

Licensed under

时间序列分析自学笔记-02平稳时间序列模型 Previous

时间序列分析自学笔记-05多元时间序列 Next