6. 基本渐近理论#

赤壁赋

寄蜉蝣于天地,渺沧海之一粟。哀吾生之须臾,羡长江之无穷。挟飞仙以遨游,抱明月而长终。


我们身处的浩瀚宇宙当中,原子的数目小于 \(10^{82}\) 个。尽管这是一个天文数字,但物理世界将它限定为一个有限的数字。相反,数学思想并不受制于现实。 渐进理论(asymptotic theory) 是一门有关无限的艺术,它研究统计量在样本量趋于无穷大之时的性质与行为。它用一系列“近似”操作来简化复杂的有限样本问题,超越了有限样本理论所涵盖范围,揭示了在更普遍情况下的估计与推断理论。

然而现实与理想相悖:我们手中的样本量总是有限的,而且在大多数情况下,我们难以扩大样本。渐近理论虽然研究无穷大,却不能准确回答“多大才是大”这个问题。因此,我们必须警惕 渐近乌托邦 (asymptopia) 的出现。在大数据时代,尽管数据的规模急剧膨胀,同时我们希望建立复杂的模型来更好地捕捉数据的异质性。大样本是一个相对的概念,依赖于模型的复杂性和数据的生成过程。

一方面,经典的参数化方法建立在难以验证的参数假设之上。另一方面,渐进理论以假想的无限序列为前提。可以说,二者都偏离了现实。哪种方法更有建设性?我们只能根据具体情况来判断。渐进理论的优点在于它数学上的普遍性与易操作性。它是现代统计理论的基石。

6.1. 随机变量的收敛模式#

首先回顾一下什么是非随机序列的收敛.

定义 6.1 (非随机序列的收敛)

假设 \(z_{1}, z_{2}, \ldots\) 是一个非随机的无限序列。如果对于任意 \(\varepsilon>0\), 存在 \(N\left(\varepsilon\right)\) 使得:对于所有 \(n>N\left(\varepsilon\right)\), 都有 \(\left|z_{n}-z\right|<\varepsilon\), 那么称 \(\{z_n\}\) 是收敛序列。

我们将 \(z\) 称作 \(z_{n}\) 的极限,并记 \(z_{n}\to z\), 或者 \(\lim_{n\to\infty}z_{n}=z\)

然而本课程感兴趣的不是确定性序列,而是随机变量序列。何谓随机变量的收敛? 我们在此定义几种随机变量的收敛模式。设 \(\left(z_{n}\right)\) 是一个随机变量序列, \(z\) 是随机变量或非随机常数。

定义 6.2 (依概率收敛, Convergence in probability)

如果对于任意 \(\varepsilon>0\), 当 \(n\to\infty\) 时,都有 \(P\left\{ \omega:\left|z_{n}\left(\omega\right)-z\right|<\varepsilon\right\} \to 1\) (或者等价地, \(P\left\{ \omega:\left|z_{n}\left(\omega\right)-z\right|\geq\varepsilon\right\} \to0\)) ,则称随机变量序列 \(\left(z_{n}\right)\) 依概率收敛到 \(z\) ,记作 \(z_{n}\stackrel{p}{\to}z\)

定义 6.3 (均方收敛, Convergence in mean square)

如果当 \(n\to\infty\) 时, \(E\left[\left(z_{n}-z\right)^{2}\right]\to0\) ,则称随机变量序列\(\left(z_{n}\right)\) 均方收敛到 \(z\) ,记作 \(z_{n}\stackrel{m. s. }{\to}z\)

依概率收敛均方收敛 的定义中, \(P\left\{ \omega:\left|z_{n}\left(\omega\right)-z\right|>\varepsilon\right\}\)\(E\left[\left(z_{n}-z\right)^{2}\right]\) 都是非随机的。它们依非随机序列的收敛方式 (定义6.1) 趋近于0。

注意,均方收敛的假设比依概率收敛的假设更强。也就是说,可以从 \(z_{n}\stackrel{m. s. }{\to}z\) 推导出 \(z_{n}\stackrel{p}{\to}z\) ,但反之不成立. 下面是一个例子。

例子 6.1

\((z_{n})\) 是一个随机变量序列: \(z_{n}=\sqrt{n}\) 的概率为 \(1/n\), \(z_{n}=0\) 的概率为 \(1-1/n\). 那么 \(z_{n}\stackrel{p}{\to}0\) ,但 \(z_{n}\stackrel{m. s. }{\nrightarrow}0.\)

Proof. 注意到,对于任意 \(\varepsilon>0\), \(P\left(\omega:\left|z_{n}\left(\omega\right)-0\right|<\varepsilon\right)=P\left(\omega:z_{n}\left(\omega\right)=0\right)=1-1/n\rightarrow1\) ,因此 \(z_{n}\stackrel{p}{\to}0\) 。同时, \(E\left[\left(z_{n}-0\right)^{2}\right]=n\cdot1/n+0\cdot(1-1/n)=1\nrightarrow0\), 所以 \(z_{n}\stackrel{m. s. }{\nrightarrow}0\)

评注 6.1

例子6.1 揭示了两种收敛方式的不同。依概率收敛并不考虑小概率事件是后果,而均方收敛考虑的则是整个概率空间上的平均值。如果某个随机变量可以取一个巨大的值,即使这是小概率事件,它也可能会影响均方收敛,却并不会破坏依概率收敛。

依概率收敛与均方收敛都事关一个随机变量收敛至另一个随机变量或者常数。也就是说,当 \(n\to\infty\) 时, \(z_{n}-z\) 的分布聚集在 0 左右。但是, 依分布收敛 (convergence in distribution) 关心的却是累积分布函数的收敛方式,并非随机变量本身的收敛。

定义 6.4 (依分布收敛, Convergence in distribution)

\(F_{z_{n}}\left(\cdot\right)\) 为随机变量序列 \(z_{n}\) 的累积分布函数, \(F_{z}\left(\cdot\right)\)\(z\) 的累计分布函数。如果对于 \(F_{z}\left(\cdot\right)\) 的任意连续点 \(a\in\mathbb{R}\) ,当 \(n\to\infty\) 时,都有 \(F_{z_{n}}\left(a\right)\to F_{z}\left(a\right)\) ,则称随机变量序列\(\left(z_{n}\right)\) 依分布收敛到随机变量 \(z\) ,记作 \(z_{n}\stackrel{d}{\to}z\)

依分布收敛是一种很弱的收敛方式。如果 \(z_{n}\stackrel{p}{\to}z\), 则 \(z_{n}\stackrel{d}{\to}z\) 。反之不一定成立,除非 \(z\) 是一个(非随机)常数 (常数 \(z\) 可以被视作一个退化的随机变量, 其累积分布函数可写作 \(F_{z}\left(\cdot\right)=1\left\{ \cdot\geq z\right\}\))。

例子 6.2

假设 \(x\sim N\left(0, 1\right)\)

  • \(z_{n}=x+1/n\), 则 \(z_{n}\stackrel{p}{\to}x\) ,且 \(z_{n}\stackrel{d}{\to}x\)

  • \(z_{n}=-x+1/n\), 或 \(z_{n}=y+1/n\) (其中 \(y\sim N\left(0, 1\right)\)\(x\) 独立) ,则 \(z_{n}\stackrel{p}{\to}x\), 但 \(z_{n}\stackrel{p}{\nrightarrow}x\)

例子 6.4

\((z_{n})\) 是一个随机变量序列。 \(z_{n}=\sqrt{n}\) 的概率为 \(1/\sqrt{n}\), \(z_{n}=0\) 的概率为 \(1-1/\sqrt{n}\) 。那么 \(z_{n}\stackrel{d}{\to}z=0\)

Proof. 注意到

\[\begin{split} F_{z_{n}}\left(a\right)=\begin{cases} 0 & a<0\\ 1-1/\sqrt{n} & 0\leq a\leq n\\ 1 & a\geq n \end{cases}. \end{split}\]

同时,

\[\begin{split} F_{z}\left(a\right)=\begin{cases} 0, & a<0\\ 1 & a\geq0 \end{cases}. \end{split}\]

易验证,在定义域 \(\left(-\infty, 0\right)\cup\left(0, +\infty\right)\) 上, \(F_{z_{n}}\left(a\right)\) 逐点收敛于 \(F_{z}\left(a\right)\) ,其中 \(F_{z}\left(a\right)\) 是连续函数。

到目前为止,我们已经讨论了随机标量的收敛性。这三种收敛模式可以很容易地推广到随机向量。具体来说,可以运用 Cramer-Wold device ,通过任意的线性组合,将随机向量线性折叠成随机标量。假设 \(\left(z_{n}\right)\) 是一个 \(K\) 维的随机向量序列, \(z\) 是一个\(K\) 维向量。如果对于任意 \(\lambda\in\mathbb{R}^{K}\)\(\left\Vert \lambda\right\Vert _{2}=1\) ,都有 \(\lambda'z_{n}\stackrel{d}{\to}\lambda'z\) ,则称随机向量序列 \(\left(z_{n}\right)\) 依分布收敛到 \(z\)

6.2. 大数定律#

(弱) 大数定律 ((weak) law of large numbers) 是一组关于 样本均值依概率收敛至总体均值 的定理。

大数定律的基本形式是,当 \(n\to\infty\) 时,有

\[ \frac{1}{n}\sum_{i=1}^{n}(z_{i}-E[z_{i}])\stackrel{p}{\to}0. \]

不同版本的大数定律基于不同的矩条件,也取决于随机变量的相依性(dependence)。

6.2.1. Chebyshev大数定律#

我们从最简单的Chebyshev大数定律入手,来理解大数定律。Chebyshev大数定律利用了Chebyshev不等式 ,其定义如下。

定理 6.1 (Chebyshev不等式)

如果随机变量 \(x\) 的二阶矩存在,且 \(E\left[x^{2}\right]<\infty\) 有限,则对于任意 \(\varepsilon>0\) ,都有

\[ P\left\{ \left|x\right|>\varepsilon\right\} \leq \frac{E\left[x^{2}\right]}{\varepsilon^{2}}. \]

练习 6.1

证明:若 \(r_{2}\geq r_{1}\geq1\) ,则由 \(E\left[\left|x\right|^{r_{2}}\right]<\infty\) 可推断出 \(E\left[\left|x\right|^{r_{1}}\right]<\infty\). (提示:使用 Holder’s 不等式) 。

Chebyshev不等式是 Markov不等式 的一种特殊情况。

定理 6.2 (Markov不等式)

如果随机变量 \(x\)\(r\) 阶矩 (\(r\ge1\)) 存在且 \(E\left[\left|x\right|^{r}\right]<\infty\) 有限,则对于任意 \(\varepsilon>0\) ,都有

\[ P\left\{ \left|x\right|>\varepsilon\right\} \leq \frac{E\left[\left|x\right|^{r}\right]}{\varepsilon^{r}}. \]

Markov不等式的证明十分简单。

Proof. 注意到

\[\begin{split} \begin{aligned}E\left[\left|x\right|^{r}\right] & =\int_{\left|x\right|>\varepsilon}\left|x\right|^{r}dF_{X}+\int_{\left|x\right|\leq\varepsilon}\left|x\right|^{r}dF_{X}\\ & \geq\int_{\left|x\right|>\varepsilon}\left|x\right|^{r}dF_{X}\\ & \geq\varepsilon^{r}\int_{\left|x\right|>\varepsilon}dF_{X}=\varepsilon^{r}P\left\{ \left|x\right|>\varepsilon\right\} , \end{aligned} \end{split}\]

重新排列此不等式,即可得到Markov不等式。

接下来我们推导Chebyshev大数定律。

假设 部分和 (partial sum) \(S_{n}=\sum_{i=1}^{n}x_{i}\) ,同时记 \(\mu_{i}=E\left[x_{i}\right]\)\(\sigma_{i}^{2}=\mathrm{var}\left[x_{i}\right]\)

对样本均值 \(z_{n}=\overline{x}-\bar{\mu}=n^{-1}\left(S_{n}-E\left[S_{n}\right]\right)\) 运用 Chebyshev 不等式,得到

(6.1)#\[\begin{split} \begin{aligned} P\left\{ \left|z_{n}\right|\geq\varepsilon\right\} & =P\left\{ n^{-1}\left|S_{n}-E\left[S_{n}\right]\right|\geq\varepsilon\right\} \\ & \leq E\left[\left(n^{-1}\sum_{i=1}^{n}\left(x_{i}-\mu_{i}\right)\right)^{2}\right]/\varepsilon^{2}\\ & =\left(n\varepsilon\right)^{-2}\left\{ E\left[\sum_{i=1}^{n}\left(x_{i}-\mu_{i}\right)^{2}\right]+\sum_{i=1}^{n}\sum_{j\neq i}E\left[\left(x_{i}-\mu_{i}\right)\left(x_{j}-\mu_{j}\right)\right]\right\} \\ & =\left(n\varepsilon\right)^{-2}\left\{ \sum_{i=1}^{n}\mathrm{var}\left(x_{i}\right)+\sum_{i=1}^{n}\sum_{j\neq i}\mathrm{cov}\left(x_{i}, x_{j}\right)\right\}. \end{aligned} \end{split}\]

\(n\to\infty\) 时,右式趋近于0,那么 \(z_{n}\) 依概率收敛至0。比如,若 \(x_{1}, \ldots, x_{n}\) 是 iid 变量, \(\mathrm{var}\left(x_{1}\right)=\sigma^{2}\) ,那么 (6.1) 右式 \(\left(n\varepsilon\right)^{-2}\left(n\sigma^{2}\right)=O \left(n^{-1}\right)\to0\)

至此,我们已经得到了Chebyshev大数定律。

定理 6.3 (Chebyshev大数定律)

如果 \(\left(z_{1}, \ldots, z_{n}\right)\) 是独立同分布 (iid) 的随机样本, \(E\left[z_{1}\right]=\mu\), \(\sigma^{2}=\mathrm{var}\left[z_{1}\right]<\infty\) 存在,则

\[ \frac{1}{n}\sum_{i=1}^{n}z_{i}\stackrel{p}{\to}\mu. \]

事实上,依概率收敛的大数定律可以放宽独立同分布 (iid) 的假设。样本中的随机变量可以来自不同的分布,也不必相互独立。

练习 6.3

考虑一组相互独立 (不一定同分布) 的随机样本 \(\left(x_{1}, \ldots, x_{n}\right)\) 使得 \(E\left[x_{i}\right]=0\), \(\mathrm{var}\left[x_{i}\right]=\sqrt{n}c\), \(c>0\)是常数。利用 Chebyshev 不等式,证明 \(n^{-1}\sum_{i=1}^{n}x_{i}\stackrel{p}{\to}0\)

练习 6.3

考虑一组时间序列的移动平均 (MA) 模型 \(x_{i}=\varepsilon_{i}+\theta\varepsilon_{i-1}\), \(i=1, \ldots, n\) 。其中, \(\left|\theta\right|<1\), \(E\left[\varepsilon_{i}\right]=0\)\(\mathrm{var}\left[\varepsilon_{i}\right]=\sigma^{2}\) ,并且 \(\left(\varepsilon_{i}\right)_{i=0}^{n}\) 是独立同分布的白噪声序列。利用 Chebyshev 不等式,证明 \(n^{-1}\sum_{i=1}^{n}x_{i}\stackrel{p}{\to}0\)

6.2.2. Kolmogorov大数定律#

大数定律的另一个常见版本是 Kolmogorov大数定律 。要导出 Kolmogorov大数定律,需要更高阶的概率论知识,因此我们只在此给出结果,略去证明。

定理 6.4 (Kolmogorov LLN)

如果 \(\left(z_{1}, \ldots, z_{n}\right)\) 是独立同分布 (iid) 的随机样本, \(E\left[z_{1}\right]=\mu\) 存在,那么

\[ \frac{1}{n}\sum_{i=1}^{n}z_{i}\stackrel{p}{\to}\mu. \]

与 Chebyshev大数定律相比,Kolmogorov大数定律只要求总体均值是存在的,并不对更高阶的矩作要求。独立同分布的假设对于Kolmogorov大数定律来说已然足够。

例子 6.4

考虑三种分布, 标准正态分布 \(N\left(0, 1\right)\)\(t\)-分布 \(t\left(2\right)\) (均值为0, 方差无限大) ,柯西分布 (所有的矩都不存在)。在不同样本容量 \(n=2^{1}, 2^{2}, \ldots, 2^{20}\) 的假设下,绘制出样本均值的轨迹图。我们发现, \(N\left(0, 1\right)\)\(t\left(2\right)\) 的样本均值收敛,而柯西分布的样本均值并不收敛。

下方的脚本展示了大数定律 ( the law of large numbers (LLN))以及暗含的假设。

首先写一个函数,在给定样本规模 \(n\) 和分布时生成对应的样本均值。我们支持三种分布: \(N(0,1)\), \(t(2)\) 和柯西分布(Cauchy)。

将样本规模设为 \(2^x\) ( \(x=1:20\) ),我们就能得到如下观测:

  • 当分布为 \(N(0,1)\) 时,Chebyshev 大数定律成立,样本均值快速收敛;

  • 当分布为 \(t(2)\) 是,均值为零且方差无限大,Kolmogorov 大数定律成立。样本均值依然收敛,但慢于 \(N(0,1)\)

  • 柯西分布在任何阶数都没有矩存在,无论样本规模多大,样本均值都不会收敛。

sample.mean = function( n, distribution ){
  # get sample mean for a given distribution
  if (distribution == "normal"){ y = rnorm( n ) } 
  else if (distribution == "t2") {y = rt(n, 2) }
  else if (distribution == "cauchy") {y = rcauchy(n) }
  return( mean(y) )
}

这个函数在样本规模几何化增长的路径上绘制对应的样本均值。

LLN.plot = function(distribution){
  # draw the sample mean graph
  ybar = matrix(0, length(NN), 3 )
  for (rr in 1:3){
    for ( ii in 1:length(NN)){
      n = NN[ii]; ybar[ii, rr] = sample.mean(n, distribution)
    }  
  }
  matplot(ybar, type = "l", ylab = "mean", xlab = "", 
       lwd = 1, lty = 1, main = distribution)
  abline(h = 0, lty = 2)
  return(ybar)
}
# calculation
NN = 2^(1:20); set.seed(2020-10-7); par(mfrow = c(3,1))
l1 = LLN.plot("normal"); l2 = LLN.plot("t2"); l3 = LLN.plot("cauchy")

6.3. 中心极限定理#

中心极限定理 (central limit theorem) 是一组关于某随机变量序列 依分布收敛至某稳定分布 的定理。极限分布通常是正态分布。

定理 6.5 (中心极限定理)

在适当条件下 ,对于均值为0的随机样本 \(\left(z_{1}, \ldots, z_{n}\right)\) ,当 \(n\to\infty\) 时,

\[ \frac{1}{\sqrt{n}}\sum_{i=1}^{n}z_{i}\stackrel{d}{\to}N\left(0, \sigma^{2}\right). \]

不同版本的中心极限定理基于对随机变量的不同假设。其中, Lindeberg-Levy 中心极限定理 最为简单。

定理 6.6 (Lindeberg-Levy CLT)

假设 \(\left(x_{1}, \ldots, x_{n}\right)\) 是独立同分布的样本, \(E\left[x_{1}\right]=0\)\(\mathrm{var}\left[x_{1}\right]=\sigma^{2}<\infty\) , 那么

\[ \frac{1}{\sqrt{n}}\sum_{i=1}^{n}x_{i}\stackrel{d}{\to}N\left(0, \sigma^{2}\right). \]

Lindeberg-Levy 中心极限定理的证明依赖于 矩母函数 (MGF, moment generating function)。

定义 6.5 (矩生成函数 MGF)

随机变量 \(x\) 的矩生成函数定义为:

\[ M_{x}\left(t\right)=E\left[\exp\left(xt\right)\right], \]

前提是这个期望值存在。

与概率密度函数和累积分布函数一样,矩母函数也可以完全刻画了一个分布。例如,正态分布 \(N\left(\mu, \sigma^{2}\right)\) 的矩母函数是 \(\exp\left(\mu t+\frac{1}{2}\sigma^{2}t^{2}\right)\)

Proof. 如果对于任意正整数 \(k\) ,都有 \(E\left[\left|x\right|^{k}\right]<\infty\) ,那么

\[ M_{X}\left(t\right)=1+tE\left[X\right]+\frac{t^{2}}{2}E\left[X^{2}\right]+\ldots\frac{t}{k!}E\left[X^{k}\right]+O\left(t^{k+1}\right). \]

Lindeberg-Levy 中心极限定理 的假设下,对于任意 \(i\) ,都有

\[ M_{\frac{X_{i}}{\sqrt{n}}}\left(t\right)=1+\frac{t^{2}}{2n}\sigma^{2}+O\left(\frac{t^{3}}{n^{3/2}}\right). \]

根据独立性,

\[\begin{split} \begin{aligned} M_{\frac{1}{\sqrt{n}}\sum_{i=1}^{n}x_{i}}\left(t\right) & =\prod_{i=1}^{n}M_{\frac{X_{i}}{\sqrt{n}}}\left(t\right)=\left(1+\frac{t^{2}}{2n}\sigma^{2}+O\left(\frac{t^{3}}{n^{3/2}}\right)\right)^{n}\\ & \to\exp\left(\frac{\sigma^{2}}{2}t^{2}\right). \end{aligned} \end{split}\]

右式的极限分布恰为正态分布的 \(N\left(0, \sigma^{2}\right)\) 的矩母函数。

评注 6.2

上述依赖于 MGF 的证明非常易于理解,但缺点在于,并非所有分布都有定义良好的矩母函数。 更一般的证明过程是把矩母函数替换为 特征函数(characteristic function) \(\varphi_{x}\left(t\right)=E\left[\exp\left(\mathrm{i}xt\right)\right]\) ,其中 “\(\mathrm{i}\)” 是虚数单位。特征函数是概率测度的 傅立叶变换 , 它必然存在。用这种方法来证明中心极限定理,需要傅立叶变换与逆转换的知识,我们在这里不做要求。

我们继续介绍中心极限定理的两种常见形式。

定理 6.7 (Lindeberg-Feller 中心极限定理)

假设 \(\left(x_{1}, \ldots, x_{n}\right)\) 是相互独立的样本。如果满足 Lindeberg condition (对于任意 \(\varepsilon>0\), \(\frac{1}{s_{n}^{2}}\sum_{i=1}^{n}E\left[x_{i}^{2}\cdot\boldsymbol{1}\left\{ \left|x_{i}\right|\geq\varepsilon s_{n}\right\} \right]\to0\), 其中 \(s_{n}=\sqrt{\sum_{i=1}^{n}\sigma_{i}^{2}}\)) ,那么

\[ \frac{\sum_{i=1}^{n}x_{i}}{s_{n}}\stackrel{d}{\to}N\left(0, 1\right). \]

定理 6.8 (Lyapunov 中心极限定理)

假设 \(\left(x_{1}, \ldots, x_{n}\right)\) 是相互独立的样本。如果 \(\max_{i\leq n}E\left[\left|x_{i}\right|^{3}\right]<C<\infty\) ,那么有

\[ \frac{\sum_{i=1}^{n}x_{i}}{s_{n}}\stackrel{d}{\to}N\left(0, 1\right). \]

下面是一个模拟案例。

Z_fun = function(n, distribution){
  if (distribution == "normal"){
      z = sqrt(n) * mean(rnorm(n))
	} else if (distribution == "chisq2") {
      df = 2; 
      x = rchisq(n,2)
      z = sqrt(n) * ( mean(x) - df ) / sqrt(2*df)
      }
  return (z)
}
CLT_plot = function(n, distribution){
  Rep = 10000
  ZZ = rep(0, Rep)
  for (i in 1:Rep) {ZZ[i] = Z_fun(n, distribution)}

  xbase = seq(-4.0, 4.0, length.out = 100)
  hist( ZZ, breaks = 100, freq = FALSE, 
    xlim = c( min(xbase), max(xbase) ),
    main = paste0("hist with sample size ", n) )
  lines(x = xbase, y = dnorm(xbase), col = "red")
  return (ZZ)
}

par(mfrow = c(3,1))
phist = CLT_plot(2, "chisq2")
phist = CLT_plot(10, "chisq2")
phist = CLT_plot(100, "chisq2")

6.4. 转化方法#

大数定律关注样本均值,而中心极限定理则聚焦于放大后 (乘以 \(\sqrt{n}\) ) 或标准化以后 (除以样本标准差) 的样本均值。大多数计量经济学的估计量不只是样本均值而已。比如,最小二乘估计量

\[ \widehat{\beta}=\left(\frac{1}{n}\sum_{i}x_{i}x_{i}'\right)^{-1}\frac{1}{n}\sum_{i}x_{i}y_{i} \]

涉及矩阵求逆和矩阵-向量乘法. 在此, 我们需要一些转化收敛结果的工具。

定理 6.9 (连续映射定理 Continuous mapping theorem 1)

如果 \(x_{n}\stackrel{p}{\to}a\), 并且 \(f\left(\cdot\right)\)\(a\) 处连续,那么 \(f\left(x_{n}\right)\stackrel{p}{\to}f\left(a\right)\)

定理 6.10 (连续映射定理 Continuous mapping theorem 2)

如果 \(x_{n}\stackrel{p}{\to}a\), 并且 \(f\left(\cdot\right)\)\(x\) 的支撑集上 几乎处处 连续,那么 \(f\left(x_{n}\right)\stackrel{d}{\to}f\left(x\right)\)

定理 6.11 (Slutsky’s theorem)

假设 \(x_{n}\stackrel{d}{\to}x\), \(y_{n}\stackrel{p}{\to}a\) ,那么

  • \(x_{n}+y_{n}\stackrel{d}{\to}x+a\)

  • \(x_{n}y_{n}\stackrel{d}{\to}ax\)

  • \(a\neq0\), 则 \(x_{n}/y_{n}\stackrel{d}{\to}x/a\)

Slutsky 定理 只是 连续映射定理2 的特殊情况。由于加法、乘法、除法是现实中最常用的运算,故将单列为定理。

定理 6.12 (Delta method)

假设 \(\sqrt{n}\left(\widehat{\theta}-\theta_{0}\right)\stackrel{d}{\to}N\left(0, \Omega\right)\) ,并且 \(f\left(\cdot\right)\)\(\theta_{0}\) 处连续可微 (即 \(\frac{\partial}{\partial\theta}f\left(\cdot\right)\)\(\theta_{0}\) 处连续) ,那么

\[ \sqrt{n}\left(f\left(\widehat{\theta}\right)-f\left(\theta_{0}\right)\right)\stackrel{d}{\to}N\left(0, \frac{\partial f}{\partial\theta'}\left(\theta_{0}\right)\Omega\left(\frac{\partial f}{\partial\theta}\left(\theta_{0}\right)\right)'\right). \]

Proof. 在 \(\theta_{0}\) 处取泰勒展开式 \(f\left(\widehat{\theta}\right)\) ,得

\[ f\left(\widehat{\theta}\right)-f\left(\theta_{0}\right)=\frac{\partial f\left(\dot{\theta}\right)}{\partial\theta'}\left(\widehat{\theta}-\theta_{0}\right), \]

其中 \(\dot{\theta}\) 位于 \(\widehat{\theta}\)\(\theta_{0}\) 之间的线段上。

等式两边同时乘以 \(\sqrt{n}\) ,得到

\[ \sqrt{n}\left(f\left(\widehat{\theta}\right)-f\left(\theta_{0}\right)\right)=\frac{\partial f\left(\dot{\theta}\right)}{\partial\theta'}\sqrt{n}\left(\widehat{\theta}-\theta_{0}\right). \]

因为可以由 \(\widehat{\theta}\stackrel{p}{\to}\theta_{0}\) 推导出 \(\dot{\theta}\stackrel{p}{\to}\theta_{0}\), 并且 \(\frac{\partial}{\partial\theta'}f\left(\cdot\right)\)\(\theta_{0}\) 处连续,所以根据 连续映射定理1,有 \(\frac{\partial}{\partial\theta'}f\left(\dot{\theta}\right)\stackrel{p}{\to}\frac{\partial f\left(\theta_{0}\right)}{\partial\theta'}\)

另一方面,由于 \(\sqrt{n}\left(\widehat{\theta}-\theta_{0}\right)\stackrel{d}{\to}N\left(0, \Omega\right)\) ,根据 Slutsky 定理可得

\[ \sqrt{n}\left(f\left(\widehat{\theta}\right)-f\left(\theta_{0}\right)\right)\stackrel{d}{\to}\frac{\partial f\left(\theta_{0}\right)}{\partial\theta'}N\left(0, \Omega\right). \]

证明完毕。

6.5. 总结#

渐进理论是一个既广且深的课题。在本章中,我们只涉猎其表。我们将在下一章继续探讨如何将渐进理论应用于最小二乘法。

历史趣闻

在20世纪80年代之前, 大多数计量经济学家的数学训练有限,因此无法很好地掌握渐进理论。几位当时年轻的计量经济学家拓展了渐进理论在计量经济学中的疆域,深刻地改变了计量经济学面貌。其中的佼佼者有 Halbert White (UCSD), Peter C. B. Phillips (Yale),以及 Peter Robinson (LSE)。

拓展阅读

Halbert White (1950-2012) 写过一本相对易读易懂的教科书 ([White, 2000]) 向计量经济学家介绍渐进理论。时至今日,这本书在经济学研究者和研究生中仍然很受欢迎。另外, [Davidson, 1994] 是一本更详细、自成一体的专著。