7. 最小二乘法:渐近性质#

在先前的章节中,我们已经学习了一些基本的渐近理论。通过这些结论,我们可以研究OLS统计量 \(\widehat{\beta}=\left(X'X\right)^{-1}X'Y\) 的各种渐近性质。在本章节我们将会涉及如下要点:(i) \(\widehat{\beta}\) 是线性投影系数 \(\beta\) 的相合估计量;(ii) \(\widehat{\beta}\) 的渐近正态性;(iii) 渐近正态性使我们可以对 \(\beta\) 进行渐近推断。

7.1. 相合性#

在大样本估计中,相合性是最基本的要求。从直觉上说,在样本无限大时,一个好的估计量应该无限趋近于总体的真实值(也就是概率收敛)。如果某个估计量在无限大的样本中得到的结果仍然与真实值有偏差,那么除非有很强的特殊理由,否则恐怕没有人想使用这样的估计量。

定义 7.1 (相合性)

对于估计量 \(\widehat{\theta}\) ,如果满足 \(\widehat{\theta}\stackrel{p}{\to}\theta\) ,则称 \(\widehat{\theta}\)\(\theta\)相合估计,其中 \(\theta\) 是某个非随机常数。

在OLS当中,如果 \(n\to\infty\)\(\widehat{\beta}\stackrel{p}{\to}\beta\) ,则称 \(\widehat{\beta}\)相合的。其中的 \(\beta\) 是总体模型 \(y_{i}=x_{i}'\beta+e_{i}\) ( \(E\left[x_{i}e_{i}\right]=0\) ) 的线性映射系数。为了验证相合性,我们写出公式:

\[ \widehat{\beta}-\beta=\left(X'X\right)^{-1}X'e=\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}'\right)^{-1}\frac{1}{n}\sum_{i=1}^{n}x_{i}e_{i}. \]

为了简化理解,在本章节中我们只考虑独立同分布(iid)的情况。通过大数定律(LLN),第一项为:

\[ \widehat{Q}:=\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}'\stackrel{p}{\to}Q:=E\left[x_{i}x_{i}'\right]. \]

这里的 \(\widehat{Q}\)\(x_{i}x_{i}'\) 的样本均值, \(Q\) 则是 \(x_{i}x_{i}'\) 的总体均值。

同样根据大数定律,我们可以得到第二项:

\[ \frac{1}{n}\sum_{i=1}^{n}x_{i}e_{i}\stackrel{p}{\to}0. \]

根据连续映射定理,我们就能够推出:

\[ \widehat{\beta}-\beta\stackrel{p}{\to}Q^{-1}\times0=0. \]

从而证明了 \(\widehat{\beta}\)\(\beta\) 的 相合估计量。

评注 7.1

无论 \(\left(y_{i},x_{i}\right)_{i=1}^{n}\) 是否满足独立同分布,或者相依样本,或独立但不同分布(inid), 只要上述的两个表达式满足依概率收敛,同时 \(Q\) 是可逆矩阵,\(\widehat{\beta}\) 就依然满足相合性。

7.2. 渐近分布#

在有限样本中,\(\widehat{\beta}\) 是随机变量。先前我们已经展示过正态性的 \(\widehat{\beta}\) 的分布。没有了正态性假设的约束,我们将如何描述OLS估计量的随机性呢?

从前面的章节中我们已经了解到 \(\hat{\beta}-\beta\stackrel{p}{\to}0\) 会归于一个常数。为了研究它们的分布,我们需要用一个合适的乘数将其放大,使得它在极限情况下既不收敛也不发散。这个合适的比例因子是 \(\sqrt{n}\) , 类似于中心极限定理有:

\[ \sqrt{n}\left(\widehat{\beta}-\beta\right)=\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}'\right)^{-1}\frac{1}{\sqrt{n}}\sum_{i=1}^{n}x_{i}e_{i}. \]

由于 \(E\left[x_{i}e_{i}\right]=0\) ,我们应用中心极限定理得到:

\[ \frac{1}{\sqrt{n}}\sum_{i=1}^{n}x_{i}e_{i}\stackrel{d}{\to}N\left(0,\Sigma\right) \]

其中 \(\Sigma=E\left[x_{i}x_{i}'e_{i}^{2}\right]\)

根据连续映射定理:

(7.1)#\[ \sqrt{n}\left(\widehat{\beta}-\beta\right)\stackrel{d}{\to}Q^{-1}\times N\left(0,\Sigma\right)\sim N\left(0,Q^{-1}\Sigma Q^{-1}\right) \]

式子右边正态分布的方差被称为渐进方差,这里我们记其为\(\Omega\)。在条件同方差的情况下,因为

\[ E\left[e_{i}^{2}|x_{i}\right]=\sigma^{2} \]

对于所有的 \(i\) 都成立,从而得到:

\[ \Sigma=E\left[x_{i}x_{i}'e_{i}^{2}\right]=E\left[x_{i}x_{i}'E\left[e_{i}^{2}|X\right]\right]=\sigma^{2}E\left[x_{i}x_{i}'\right]=\sigma^{2}Q. \]

在这个例子里,\(\Omega=Q^{-1}\Sigma Q^{-1}=\sigma^{2}Q^{-1}\) ,可以因此推出:

\[ \sqrt{n}\left(\widehat{\beta}-\beta\right)\stackrel{d}{\to}N\left(0,\sigma^{2}Q^{-1}\right). \]

评注 7.2

如果我们对第 \(k\) 个参数 \(\beta_{k}\) 感兴趣,那么可以从(7.1)中的联合分布推导出:

(7.2)#\[\begin{split} \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{k}-\beta_{k}\right) & =\sqrt{n}\eta_{k}'\left(\widehat{\beta}-\beta\right) \\ & \stackrel{d}{\to}N\left(0,\sigma^{2}\eta_{k}'Q^{-1}\eta_{k}\right)\sim N\left(0,\sigma^{2}[Q^{-1}]_{kk}\right), \end{aligned} \end{split}\]

其中特殊向量 \(\eta_{k}=\left(0,\ldots,0,1,0\ldots,0\right)'\) 用于挑选第 \(k\) 个元素。

评注 7.3

如果在(7.1)的两边乘上 \(\Omega^{-1/2}\) ,我们就有:

(7.3)#\[ \Omega^{-1/2}\sqrt{n}\left(\widehat{\beta}-\beta\right)\stackrel{d}{\to}N\left(0,I_{K}\right). \]

因为(7.3)中的渐近分布 \(N\left(0,I_{K}\right)\) 不涉及任何的未知参数,我们称之为枢轴量(pivotal)。 相反,因为 \(\Omega\)\(N\left(0,\Omega\right)\) 中是未知的,(7.1)中的渐近分布不是枢轴量。如果我们想要了解 \(\beta_{k}\) 我们可以将(7.3)以枢轴量的形式写为:

(7.4)#\[ \frac{\sqrt{n}\left(\widehat{\beta}_{k}-\beta_{k}\right)}{\sqrt{\sigma^{2}[Q^{-1}]_{kk}}}\stackrel{d}{\to}N\left(0,1\right). \]

7.3. 渐近推断#

到目前为止,我们已经得到了 \(\widehat{\beta}\) 的渐近分布。然后,只有当 \(\Omega\) 已知时,(7.1)(7.3) 才能派上用场。在现实情况中, \(\Omega\) 通常是未知的,因此需要对其进行估计,才能进行统计推断。 假设 \(\tilde{\Omega}\) 是符合 \(\tilde{\Omega}\stackrel{p}{\to}\Omega\)\(\Omega\) 相合估计量,我们用\(\tilde{\Omega}\) 替代(7.3)中的 \(\Omega\) , 得到可行(feasible)统计量 \(\tilde{\Omega}^{-1/2}\sqrt{n}\left(\widehat{\beta}-\beta\right) \)可行统计量不带有任何未知参数,可以直接用数据进行计算。该统计量可以被分解为:

\[ \begin{aligned} \tilde{\Omega}^{-1/2}\sqrt{n}\left(\widehat{\beta}-\beta\right) & =\tilde{\Omega}^{-1/2}\Omega^{1/2}\times\Omega^{-1/2}\sqrt{n}\left(\widehat{\beta}-\beta\right). \end{aligned} \]

因为 \(\Omega\) 是正定的,根据连续映射定理我们就会得到第一个因子 \(\tilde{\Omega}^{-1/2}\Omega^{1/2}\stackrel{p}{\to}I_{K}\) 。依据(7.3) ,第二个因子有渐近正态性,于是通过Slutsky定理推出

(7.5)#\[ \tilde{\Omega}^{-1/2}\sqrt{n}\left(\widehat{\beta}-\beta\right)\stackrel{d}{\to}N\left(0,I_{K}\right) \]

接下来的问题是如何相合地估计 \(\Omega=Q^{-1}\Sigma Q^{-1}\),或者说,怎么获得合适的 \(\tilde{\Omega}\) 。 我们之前已经得出 \(\widehat{Q}\stackrel{p}{\to}Q\),如果我们也有 \(\Sigma\) 的相合估计量 \(\tilde{\Sigma}\),那么可以将它们代入,得到 \(\tilde{\Omega}=\widehat{Q}^{-1}\tilde{\Sigma}\widehat{Q}^{-1}\)。棘手的问题在于如何相合估计\(\Sigma=E\left[x_{i}x_{i}'e_{i}^{2}\right]\)。因为 \(e_{i}\) 无法观测,我们不能用样本均值 \(x_{i}x_{i}'e_{i}^{2}\) 来进行估计。基于同方差假设:\(\Omega=Q^{-1}\Sigma Q^{-1}=\sigma^{2}Q^{-1}\),我们同样不能用 \(e_{i}^{2}\) 来估计 \(\sigma^{2}\)

评注 7.4

如果选用 \(\widehat{e}_{i}=\widehat{y}_{i}-x_{i}'\widehat{\beta}\) 并用其代替 \(e_{i}\),那么我们就可以得到同方差的估计量 \(\widehat{\Omega}=\widehat{\sigma}^{2}\widehat{Q}^{-1}\)
其中 \(\widehat{\sigma}^{2}=\widehat{e}'\widehat{e}/\left(n-K\right)\)\(\widehat{\sigma}^{2}=\widehat{e}'\widehat{e}/n\)

如果是异方差,得到的估计量为:\(\widehat{\Omega}=\widehat{Q}^{-1}\widehat{\Sigma}\widehat{Q}^{-1}\)。相应地,其中\(\widehat{\Sigma}=n^{-1}\sum_{i}x_{i}x_{i}'\widehat{e}_{i}^{2}\)。 本讲略去 \(\widehat{\sigma}^{2}\stackrel{p}{\to}\sigma^{2}\)\(\widehat{\Sigma}\stackrel{p}{\to}\Sigma\) 的推导。

如果我们选用 \(\widehat{\sigma}^{2}=\widehat{e}'\widehat{e}/\left(n-K\right)\) 然后替换(7.2)中的 \(\sigma^{2}\) ,那么 \(T_{k}=\frac{\sqrt{n}\left(\widehat{\beta}_{k}-\beta_{k}\right)}{\sqrt{\widehat{\sigma}^{2}[\widehat{Q}^{-1}]_{kk}}}\) 的结果就等于有限样本估计中的 \(t\) 统计量。

之前我们学过,在经典正态误差的假设中, \(t\) 统计量遵循精确有限样本 \(t\) 分布,其自由度为 \(n-K\) 。在渐近分析中,如果\(E\left[e_{i}^{2}|x_{i}\right]<\infty\) ,我们允许 \(e_{i}\) 服从任何的分布。渐近正态性允许我们进行渐近统计推断。对于 \(t\) 统计量,我们必须从正态分布中获得临界值, 因为如果 \(\widehat{\sigma}^{2}\stackrel{p}{\to}\sigma^{2}\) ,根据Slutsky定理有:

\[ T_{k}=\frac{\sqrt{\sigma^{2}[Q^{-1}]_{kk}}}{\sqrt{\widehat{\sigma}^{2}[\widehat{Q}^{-1}]_{kk}}}\cdot\frac{\sqrt{n}\left(\widehat{\beta}_{k}-\beta_{k}\right)}{\sqrt{\sigma^{2}[Q^{-1}]_{kk}}}\stackrel{d}{\to}1\times N\left(0,1\right)\sim N\left(0,1\right). \]

7.4. 总结#

不等式是渐近理论中最重要的工具之一。有些推导过程初看起来很复杂,但实际上会经常在各种结论的证明中频繁碰见。被“折磨”几年之后,这种计算就是家常便饭了。

历史趣闻

[White, 1980] 引起了人们对经济场景中违反经典假设的线性回归的注意。 计量经济学家们开始关注统计推断中的方差估计。 在接下来的几十年里,涌现出大量方差估计理论,用于处理各种各样偏离经典假设的情形。

拓展阅读

在本章中,所有的向量的维度都是有限的,如果 \(K\to\infty\) 的速率比 \(n\) 小得多,其中的结论可以被推广到 \(K\) 无限的情况。这样的渐近将需要多个维度,它超出了我们在这里学到的最简单的 \(n\to\infty\) 的范畴。大数据伴随着复杂的模型,模型往往随着 \(n\) 的增加而变得更加复杂。

7.5. 附录#

我们在这里介绍符号 big Op and small op ,它们和随机情况中的 big O and small o 相对应。

  • Small op: \(x_{n}=o_{p}\left(r_{n}\right)\) if \(x_{n}/r_{n}\stackrel{p}{\to}0\).

  • Big Op: \(x_{n}=O_{p}\left(r_{n}\right)\) if for any \(\varepsilon>0\), there exists a \(c>0\) such that \(P\left(\left|x_{n}\right|/r_{n}>c\right)<\varepsilon\).

    一些推导:

  • \(o_{p}\left(1\right)+o_{p}\left(1\right)=o_{p}\left(1\right)\);

  • \(o_{p}\left(1\right)+O_{p}\left(1\right)=O_{p}\left(1\right)\);

  • \(o_{p}\left(1\right)O_{p}\left(1\right)=o_{p}\left(1\right)\).

有了 big Op and small op ,在表示随机对象的随机顺序时我们就可以继续用等式进行计算。