证明OLS最小方差性

该性质是高斯-马尔可夫定理（Gauss-Markov Theorem）的核心内容，即“在满足经典线性回归模型假设的条件下，OLS 估计量是最优线性无偏估计（BLUE）”。

前提假设与模型设定

线性回归模型

设一元线性回归模型为：
$$
Y_i = \beta_0 + \beta_1 X_i + \mu_i \quad (i=1,2,\dots,n)
$$

其中：

$Y_i$ 为因变量，$X_i$ 为自变量（非随机变量），
$\beta_0$（截距项）和 $\beta_1$（斜率项）为待估参数，
$\mu_i$ 为随机误差项，满足 高斯-马尔可夫假设

关键假设

假设 1（线性性）：$Y_i$ 是 $\beta_0, \beta_1$ 的线性函数。
假设 2（无偏性）：$E(\mu_i) = 0$，故 $E(Y_i) = \beta_0 + \beta_1 X_i$。
假设 3（同方差性）：$\text{Var}(\mu_i) = \sigma^2$（常数，与 $i$ 无关）。
假设 4（无自相关性）：$\text{Cov}(\mu_i, \mu_j) = 0$（$i \neq j$，误差项互不相关）。

OLS 估计量的表达式

OLS 估计量通过 最小化残差平方和 $\sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2$ 得到，其表达式为：

斜率估计量 $\hat{\beta}_1$

$$
\hat{\beta}1 = \frac{\sum{i = 1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i = 1}^n (X_i - \bar{X})^2} = \sum_{i = 1}^n k_i Y_i
$$

其中：

$\bar{X} = \frac{1}{n}\sum X_i$，$\bar{Y} = \frac{1}{n}\sum Y_i$（样本均值），
为便于后续推导，我们设定 $k_i = \dfrac{X_i - \bar{X}}{\sum_{j=1}^n (X_j - \bar{X})^2}$，它是 $X_i$ 的函数。

可见，$\hat{\beta}_1$ 是 $Y_i$ 的 线性组合（线性估计量）。

截距估计量 $\hat{\beta}_0$

$$
\hat{\beta}_0 = \bar{Y} - \hat{\beta}1 \bar{X} = \sum{i=1}^n \left( \frac{1}{n} - \bar{X} k_i \right) Y_i
$$

也是 $Y_i$ 的线性组合（线性估计量）。

最小方差性的证明

需证明：在所有线性无偏估计量中，OLS 估计量 $\hat{\beta}_1$ 的方差最小。

步骤 1：定义任意线性无偏估计量

设 $\hat{\beta}1^$ 是 $\beta_1$ 的任意线性估计量，可表示为：
$$
\hat{\beta}_1^ = \sum{i=1}^n (k_i + d_i) Y_i
$$

其中 $d_i$ 是任意常数（非随机，因 $k_i$ 非随机），故 $\hat{\beta}1^$ 可分解为：
$$
\hat{\beta}_1^ = \sum{i=1}^n k_i Y_i + \sum_{i=1}^n d_i Y_i = \hat{\beta}1 + \sum{i=1}^n d_i Y_i
$$

步骤 2：利用无偏性约束推导 $d_i$ 的条件

估计量无偏性要求 $E(\hat{\beta}_1^) = \beta_1$，代入 $Y_i = \beta_0 + \beta_1 X_i + \mu_i$：
$$
\begin{align}
E(\hat{\beta}_1^) &= E\left [ \sum (k_i + d_i)(\beta_0 + \beta_1 X_i + \mu_i) \right] \
&= \beta_0 \sum (k_i + d_i) + \beta_1 \sum (k_i + d_i) X_i + \sum (k_i + d_i) E(\mu_i) \
&= \beta_0 \sum (k_i + d_i) + \beta_1 \sum (k_i + d_i) X_i \quad (\text{因 } E(\mu_i)= 0)
\end{align}
$$

由于 $\hat{\beta}_1$ 是无偏估计量，已知： $$\sum k_i = 0, \quad \sum k_i X_i = 1$$

因此，$\hat{\beta}_1^*$ 无偏性要求： $$\sum d_i = 0, \quad \sum d_i X_i = 0$$

步骤 3：计算 $\hat{\beta}_1^*$ 的方差

利用方差 $\text{Var}(a + bZ) = \text{Var}(bZ) = b^2 \text{Var}(Z)$ 的性质，且 $\mu_i$ 无自相关：
$$
\begin{align*}
\text{Var}(\hat{\beta}_1^) &= \text{Var}\left( \hat{\beta}_1 + \sum d_i Y_i \right) \
&= \text{Var}(\hat{\beta}_1) + \text{Var}\left( \sum d_i Y_i \right) + 2\text{Cov}\left( \hat{\beta}_1, \sum d_i Y_i \right)
\end{align}
$$

步骤 4：化简协方差项

利用协方差的双线性性质和 $\hat{\beta}_1 = \sum k_i Y_i$，结合无自相关、同方差假定，得：

$$
\begin{split}\text{Cov}\left( \hat{\beta}1, \sum d_i Y_i \right) &= \text{Cov}\left( \sum k_i Y_i, \sum d_j Y_j \right) \&= \sum{i = 1}^n \sum_{j = 1}^n k_i d_j \text{Cov}(Y_i, Y_j)
\\xlongequal[\text{when} \ i = j,\ \text{Cov}(Y_i, Y_i) = \text{Var}(Y_i) = \text{Var}(\mu_i) = \sigma^2]{\text{when} \ i \neq j,\ \text{Cov}(Y_i, Y_j) = \text{Cov}(\mu_i, \mu_j) = 0} & = \sigma^2 \cdot \sum_{i = 1}^n k_i d_i
\end{split}
$$

代入 $k_i = \dfrac{X_i - \bar{X}}{\sum (X_j - \bar{X})^2}$，并利用无偏性得到的 $\sum d_i = 0$ 且 $\sum d_i X_i = 0$，得：
$$
\sum k_i d_i = \frac{\sum (X_i - \bar{X}) d_i}{\sum (X_j - \bar{X})^2} =\frac{\sum d_i X_i- \bar{X}\sum d_i}{\sum (X_j - \bar{X})^2} = 0
$$

因此，协方差项为 $0$，简化得到：
$$
\text{Var}(\hat{\beta}_1^*) = \text{Var}(\hat{\beta}_1) + \text{Var}\left( \sum d_i Y_i \right)
$$

步骤 5：证明方差最小性

由于方差非负（$\text{Var}(\cdot) \geq 0$），故：
$$
\text{Var}(\hat{\beta}_1^*) = \text{Var}(\hat{\beta}_1) + \text{Var}\left( \sum d_i Y_i \right) \geq \text{Var}(\hat{\beta}_1)
$$

当且仅当 $d_i = 0$（对所有 $i$）时，等号成立，此时 $\hat{\beta}_1^* = \hat{\beta}_1$ 同理可证， $\hat{\beta}_0$ 也满足最小方差性。

结论

在满足高斯-马尔可夫假设的条件下，OLS 估计量 $\hat{\beta}_1$ 的方差小于任何其他线性无偏估计量的方差，即 OLS 估计量具有 最小方差性。

补充：小样本OLS最小方差性矩阵证明

步骤1：任意线性无偏估计量的表示

任选一个 $\beta$ 的线性无偏估计量 $\tilde{\beta}$。由于任何线性估计量都可以表示为OLS估计量加上一个偏差项，设：

$$
\tilde{\beta} = \hat{\beta} + D Y
$$

其中，矩阵 $D$ 由 $k \times N$ 非随机元素构成。若 $D = 0$ 则 $\tilde{\beta} = \hat{\beta}$，否则 $\tilde{\beta} \neq \hat{\beta}$。

由于 $\hat{\beta} = (X’X)^{-1}X’Y$，展开 $\tilde{\beta}$ 得：

$$
\begin{aligned}
\tilde{\beta} &= \hat{\beta} + D Y = \bigl((X’X)^{-1}X’ + D\bigr)Y \
&= \bigl((X’X)^{-1}X’ + D\bigr)(X\beta + \varepsilon) \
&= \beta + (X’X)^{-1}X’\varepsilon + D X\beta + D\varepsilon
\end{aligned}
$$

由 $\tilde{\beta}$ 无偏且 $X$ 非随机，得：

$$
E(\tilde{\beta}) = \beta + \underbrace{E\bigl((X’X)^{-1}X’\varepsilon\bigr)}{=0} + \underbrace{E(DX)}{\text{非随机}}\beta + D\underbrace{E(\varepsilon)}_{=0} = \beta + D X\beta = \beta
$$

因此：

矩阵 $D$ 满足：$\mathbf{DX = 0}$
$\tilde{\beta}$ 可写为：$\tilde{\beta} = \beta + (X’X)^{-1}X’\varepsilon + D\varepsilon$

步骤2：计算 $\tilde{\beta}$ 的方差

$$
\operatorname{Var}(\tilde{\beta}) = E\bigl[(\tilde{\beta} - \beta)(\tilde{\beta} - \beta)‘\bigr]
= E\Bigl[\bigl((X’X)^{-1}X’\varepsilon + D\varepsilon\bigr)\bigl((X’X)^{-1}X’\varepsilon + D\varepsilon\bigr)'\Bigr]
$$

展开得：

$$
\begin{aligned}
\operatorname{Var}(\tilde{\beta}) &= E\Bigl[(X’X)^{-1}X’\varepsilon\varepsilon’X(X’X)^{-1} \
&\quad + (X’X)^{-1}X’\varepsilon\varepsilon’D’ + D\varepsilon\varepsilon’X(X’X)^{-1} + D\varepsilon\varepsilon’D’\Bigr] \
&= (X’X)^{-1} E(\varepsilon\varepsilon’|X) + 2E(\varepsilon\varepsilon’|X)\cdot D X (X’X)^{-1} + D D’ E(\varepsilon\varepsilon’|X)
\end{aligned}
$$

由球形扰动项假定（条件同方差）：$E[\varepsilon\varepsilon’|X] = \sigma^2 I_n$，代入得：

$$
\begin{aligned}
\operatorname{Var}(\tilde{\beta}) &= \sigma^2 (X’X)^{-1} + 2\sigma^2 D X (X’X)^{-1} + \sigma^2 D D’ \
&\xlongequal{DX = 0} \sigma^2 (X’X)^{-1} + \sigma^2 D D’ \
&= \operatorname{Var}(\hat{\beta}) + \sigma^2 D D’
\end{aligned}
$$

由于 $D D’$ 是半正定矩阵，其主对角线元素非负，因此：

$$
\operatorname{Var}(\tilde{\beta}) - \operatorname{Var}(\hat{\beta}) = \sigma^2 D D’ \geq 0
\quad\Rightarrow\quad
\operatorname{Var}(\hat{\beta}^{\text{OLS}}) \leq \operatorname{Var}(\tilde{\beta})
$$

即OLS估计量在所有线性无偏估计量中具有最小方差。

证明OLS最小方差性

https://zhangwj235.github.io/posts/42d542d2/

Author

Jack Zhang

Posted on

May 27, 2026

Licensed under

时间序列分析自学笔记-06协整与误差修正模型 Previous

Yr2022_经济研究_城乡分割视角下中国收入不均等与消费关系研究 Next