8. 假设检验#

数学标记: \( \mathbf{X} \) 是一个随机变量, 或随机向量; \( \mathbf{x} \) 是其实现值。

一个 假设(hypothesis) 是关于参数空间 \( \Theta \) 的陈述。

假设检验检查数据是否满足零假设(null hypothesis)\(\Theta_{0}\)\(\Theta_{0}\)\( \Theta \) 中研究者感兴趣的部分;它是 \( \Theta \) 的子集。理想情况下, 这一零假设应该是由科学理论提出的。备择假设(alternative hypothesis) \(\Theta_{1}=\Theta\backslash\Theta_{0}\)\( \Theta_{0}\) 的补集。 基于观察到的数据, 我们选择接受或者拒绝零假设。如果零假设被拒绝, 则意味着从统计学角度来看, 数据与所提出的科学假说不相容。

在本章中,我们首先介绍假设检验的思想与实践,以及与之相关的置信区间。虽然我们主要以频率学派的观点理解假设检验,我们也简要地讨论贝叶斯学派的统计决策方法。另外,我们也引入假设检验在线性回归中的应用——如何在有限制与无限制的情况下,对(非)线性回归中的参数值进行假设检验。

8.1. 检验#

8.1.1. 决策规则与误差#

如果 \(\Theta_{0}\) 是单点集合, 我们称之为简单假设;否则, 我们称其为复合假设。例如,若参数空间 \(\Theta=\mathbb{R}\) , 则 \( \Theta_{0}=\left\{ 0\right\}\)(或等价于 \(\Theta_{0}=0\) ) 是一个简单假设,而 \(\Theta_{0}=(-\infty, 0]\)(或者等价于 \( \theta_{0}\leq0 \) ) 是一个复合假设。

检验函数(test function) 是一个映射

\[ \phi: \mathcal{X}^{n}\mapsto\left\{ 0, 1\right\} , \]

其中, \(\mathcal{X}\) 是样本空间。若 \(\phi\left(\mathbf{x}\right) =0\) , 则接受零假设;若 \( \phi\left(\mathbf{x}\right) =1 \) , 则拒绝零假设。

我们定义 接受域(acceptance region)\( A_{\phi}=\left\{ \mathbf{x}\in\mathcal{X}^{n}: \phi_{\theta}\left(\mathbf{x}\right) =0\right\} \) , 其补集 \( R_{\phi}=\left\{ \mathbf{x}\in\mathcal{X}^{n}: \phi\left(\mathbf{x}\right) =1\right\} \) 称为拒绝域(rejection region)

检验 \( \phi \) 的功效函数(power function) 被定义为

\[ \beta\left(\theta\right) =P_{\theta}\left\{ \phi\left(\mathbf{X}\right) =1\right\} =E_{\theta}\left[\phi\left(\mathbf{X}\right) \right]. \]

功效函数衡量的是当数据由真实参数 \(\theta\) 产生时,检验函数拒绝零假设的概率。上式中 \(P_{\theta}\)\(E_{\theta}\) 体现了功效函数依赖于真实参数 \(\theta_0\)

对于某参数值 \(\theta\in\Theta_{1}\) 检验的功效(power) 被定义为 \( \beta\left(\theta\right) \) ,检验的 尺度(size) 被定义为 \( \sup_{\theta\in\Theta_{0}}\beta\left(\theta\right)\)

注意, 检验功效的定义取决于备择假设 \( \Theta_{1} \) 中的 \( \theta \) ;而检验尺度的定义与具体的 \( \theta \) 值无关, 因为它是零假设 \( \Theta_{0} \) 的上确界。当难以推导出精确的上确界时, 我们也常用水平(level) \( \alpha \) 这一概念来衡量检验, 水平 \( \alpha\in\left(0, 1\right) \) 是任意使得 \( \alpha\geq\sup_{\theta\in\Theta_{0}}\beta\left(\theta\right) \) 成立的值。

一个尺度为 \( \alpha \) 的检验, 其水平一定大于等于 \( \alpha \) ;一个水平为 \( \alpha \) 的检验,其尺度一定小于等于 \( \alpha \)

例子 8.1

例如, 我们从某未知联合分布中随机抽取 \( \left(X_{1i}, X_{2i}\right) _{i=1}^{n} \) 。对于 \( j=1, 2 \) , 已知边际分布 \( X_{ji}\sim N\left(\theta_{j}, 1\right) \) 。为了检验联合假设 \( \theta_{1}=\theta_{2}=0 \) , 我们可以构造一个检验函数

\[ \phi_{\theta_{1}=\theta_{2}=0}\left(\mathbf{X}_{1}, \mathbf{X}_{2}\right) =1\left\{ \left\{ \sqrt{n}\left|\overline{X}_{1}\right|\geq z_{1-\alpha/4}\right\} \cup\left\{ \sqrt{n}\left|\overline{X}_{2}\right|\geq z_{1-\alpha/4}\right\} \right\} , \]

其中 \( z_{1-\alpha/4} \) 是标准正态分布的 \( \left(1-\alpha/4\right) \) 分位数。该检验的水平是

\[\begin{split} \begin{aligned}P\left(\phi_{\theta_{1}=\theta_{2}=0}\left(\mathbf{X}_{1}, \mathbf{X}_{2}\right) \right) & \leq P\left(\sqrt{n}\left|\overline{X}_{1}\right|\geq z_{1-\alpha/4}\right) +P\left(\sqrt{n}\left|\overline{X}_{2}\right|\geq z_{1-\alpha/4}\right) \\ & =\alpha/2+\alpha/2=\alpha. \end{aligned} \end{split}\]

上式中的不等式可由下方的Bonferroni不等式推导得出。

\[ P\left(A\cup B\right) \leq P\left(A\right) +P\left(B\right) \]

因此, 检验 \( \phi\left(\mathbf{X}_{1}, \mathbf{X}_{2}\right) \) 的水平为 \( \alpha \) 。但该检验的具体尺度未知, 除非我们可以得到有关该联合分布的具体信息。即使我们知道 \( X_{1i} \)\( X_{2i} \) 的相关性, 将两个边际正态分布放在一起,并不能确认它们构成联合正态分布。

接受 \( H_{0} \)

拒绝 \( H_{0} \)

\( H_{0} \) 成立

正确

第一类错误

\( H_{0} \) 不成立

第二类错误

正确

  • 第一类错误(Type I error)概率\( \beta\left(\theta\right) \) , 其中 \( \theta\in\Theta_{0} \) .

  • 第二类错误(Type II error)概率\( 1-\beta\left(\theta\right) \) , 其中 \( \theta\in\Theta_{1} \) .

假设检验的哲学理念是一个争论不休的话题。目前, 统计学教科书中普遍采用的框架是 频率学派的观点 。频率学派认为参数是一个固定的常数。他们对第一类错误秉持着非常保守的态度: 只有在有充足证据的情况下, 才可以拒绝零假设。在“保护零假设”这一原则下, 一个理想的检验应该有一个较小的水平。传统上我们采用 \( \alpha=0.01, 0.05\) 或者 \(0.1\)。如果 \( \beta\left(\theta\right) \geq\sup_{\theta\in\Theta_{0}}\beta\left(\theta\right) \) , 我们说一个测试是 无偏的 。对于所有 \( \Theta\in \Theta_{1} \) 来说, 可以存在很多正确尺度的检验。

例子 8.2

对于任意 \( \theta\in\Theta \) ,我们构造一个很简单的检验函数 \( \phi(\mathbf{x}) =1\left\{ 0\leq U\leq\alpha\right\} \) ,其中 \( U \) 是取自在 \( \left[0, 1\right] \) 上的均匀分布。该检验有着正确尺度的 \( \alpha \),但功效未知。在另一极端情况下, 检验函数 \( \phi\left(\mathbf{x}\right) =1 \) 拥有最大的功效, 但尺度是错误的。

一般来说,假设检验的具体操作需要我们提出检验统计量 \( T_{n}: \mathcal{X}^{n}\mapsto\mathbb{R}^{+} \) 及相应的临界值 \( c_{1-\alpha} \)。对于给定的 \( T_{n} \)\( c_{1-\alpha} \),检验函数可写作:

\[ \phi\left(\mathbf{X}\right) =1\left\{ T_{n}\left(\mathbf{X}\right) >c_{1-\alpha}\right\} . \]

为了保证该检验 \( \phi\left(\mathbf{x}\right) \) 有着正确的尺度, 我们需要找到 \( T_{n} \) 在零假设下的分布(零分布,null distribution),然后通过零假设与理想的检验尺度/水平, 找到一个临界值 \( c_{1-\alpha} \)

另一个在假设检验中常见的指标是 \( p \) -值:

\[ \sup_{\theta\in\Theta_{0}}P_{\theta}\left\{ T_{n}\left(\mathbf{x}\right) \leq T_{n}\left(\mathbf{X}\right) \right\} . \]

在上述表达式中, \( T_{n}\left(\mathbf{x}\right) \) 是检验统计量 \( T_{n} \) 的实际数值, 而 \( T_{n}\left(\mathbf{X}\right) \) 是由零分布 \( \theta\in\Theta_{0} \) 产生的随机变量。 \( p \) -值的意义则是, 在零假设成立的情况下, 我们观测到 \( T_{n}(\mathbf{X}) \) 大于等于实际数值 \( T_{n}(\mathbf{x}) \) 的概率。

注意, \( p \) -值 不是 零假设为真的概率。在频率学派的观点下, 零假设只有“真”和“假”两种可能中的一种,它具有确定性。检验的随机性只来自抽样,不来自假设本身。 \( p \) -值衡量数据集是否与零假设相符,此只与它相应的检验相关。当 \( p \) 值小于指定的检验尺度 \(\alpha\) 时, 我们拒绝零假设。

到目前为止, 我们讨论了有限样本的假设检验。当 \( n\to\infty \) 时, 这些概念依然成立。如果我们把功效函数表示为 \( \beta_{n}\left(\theta\right) \) ,将其对样本量 \(n\) 的依赖明确标示。对于 \( \theta\in\Theta_{0} \) , 有 \( \limsup_{n\to\infty}\beta_{n}\left(\theta\right) \leq\alpha \),那么这个检验的渐进尺度(asymptotic size) 为 \( \alpha \)

如果对于任意 \( \theta\in\Theta_{1} \),都有 \( \beta_{n}\left(\theta\right) \to1 \),那么该检验是 相合的(consistent)

8.2. 最优性#

统计理论中, 同一个参数估计可以产生多个合理的估计值, 同一个假设检验也可以有多个合理的检验。在零假设 \( \Psi_{\alpha}=\left\{ \phi: \sup_{\theta\in\Theta_{0}}\beta_{\phi}\left(\theta\right) \leq\alpha\right\} \) 下( \( \beta_{\phi}\left(\theta\right) \) 中的下标 \( \phi \) 代表不同的检验),对于有着相同水平 \( \alpha \) 的检验来说, 我们自然会偏好在备择假设的每个点都有着最高功效的 \( \phi^{*} \) , 也就是对于每个 \( \phi\in\Psi_{\alpha} \) 来说,都有

\[ \beta_{\phi^{*}}\left(\theta\right) \geq\beta_{\phi}\left(\theta\right) . \]

如果这样的检验 \( \phi^{*}\in\Psi_{\alpha} \) 成立, 我们称之为 一致最大功效检验(uniformly most powerful test),简称UMP检验。

例子 8.3

假设一个尺度为6的随机样本产生于

\[ \left(X_{1}, \ldots, X_{6}\right) \sim\text{iid.}N\left(\theta, 1\right) , \]

其中 \( \theta \) 是未知的。我们想要推断该正态分布的均值。零假设为 \( H_{0} \) : \( \theta\leq0 \) , 备择假设为 \( H_{1} \) : \( \theta>0 \) 。所有满足

\[ \Psi=\left\{ 1\left\{ \bar{X}\geq c/\sqrt{6}\right\} : c\geq1.64\right\} \]

的检验都有正确的水平。

因为 \( \bar{X}=N\left(\theta, 1/6\right) \) , 这些检验 \( \Psi \) 的功效函数为

\[\begin{split} \begin{aligned} \beta_{\phi}\left(\theta\right) & =P\left(\bar{X}\geq\frac{c}{\sqrt{6}}\right) =P\left(\frac{\bar{X}-\theta}{1/\sqrt{6}}\geq\frac{\frac{c}{\sqrt{6}}-\theta}{1/\sqrt{6}}\right) \\ & =P\left(N\geq c-\sqrt{6}\theta\right) =1-\Phi\left(c-\sqrt{6}\theta\right) .\end{aligned} \end{split}\]

其中, 根据标准正态分布, \( N=\frac{\bar{X}-\theta}{1/\sqrt{6}} \)\( \Phi \) 是标准正态分布的CDF。

因为 \( \beta_{\phi}\left(\theta\right) \)\( c \) 单调递减, 因此检验函数

\[ \phi_{\theta=0}\left(\mathbf{X}\right) =1\left\{ \bar{X}\geq1.64/\sqrt{6}\right\} \]

\( \Psi \) 中功效最大, 因为 \( c=1.64 \) 是在保证水平 \( \alpha \) 不变的基础上, \( c \) 所能取的最下界。

8.3. 似然比检验与Wilks定理#

当估计值不能写作闭合形式时, 似然比检验(Likeelihood-ratio test, LRT)就起到重要作用。令样本的平均对数似然函数为 \( \ell_{n}\left(\theta\right) =n^{-1}\sum_{i}\log f\left(x_{i};\theta\right) \) , 那么 \( \widehat{\theta}=\arg\max_{\theta\in\Theta}\ell_{n}\left(\theta\right) \) 是最大似然估计值(maximum likelihood estimator, MLE)。在 \( \ell_{n}\left(\widehat{\theta}\right) \) 处对 \( \ell_{n}\left(\theta_{0}\right) \) 取泰勒展开:

\[\begin{split} \begin{aligned} \ell_{n}\left(\theta_{0}\right) -\ell_{n}\left(\widehat{\theta}\right) & =\frac{\partial\ell_{n}}{\partial\theta}\left(\widehat{\theta}\right) '\left(\theta_{0}-\widehat{\theta}\right) +\frac{1}{2}\left(\theta_{0}-\widehat{\theta}\right) '\left(\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\theta_{0}\right) \right) \left(\theta_{0}-\widehat{\theta}\right) +O\left(\left\Vert \widehat{\theta}-\theta_{0}\right\Vert _{2}^{3}\right) \\ & =\frac{1}{2}\left(\widehat{\theta}-\theta_{0}\right) '\left(\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\theta_{0}\right) \right) \left(\widehat{\theta}-\theta_{0}\right) +O\left(\left\Vert \widehat{\theta}-\theta_{0}\right\Vert _{2}^{3}\right) \\ & =\frac{1}{2}\left(\widehat{\theta}-\theta_{0}\right) '\left(\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\theta_{0}\right) \right) \left(\widehat{\theta}-\theta_{0}\right) +o_{p}\left(1\right) .\end{aligned} \end{split}\]

其中, 因为一阶条件, \( \frac{\partial\ell_{n}}{\partial\theta}\left(\widehat{\theta}\right) =0 \)

定义 \( L_{n}\left(\theta\right) : =\sum_{i}\log f\left(x_{i};\theta\right) \) , 似然比统计量(likelihood-ratio statistic)

\[ \mathcal{LR}: =2\left(L_{n}\left(\widehat{\theta}\right) -L_{n}\left(\theta_{0}\right) \right) =2n\left(\ell_{n}\left(\widehat{\theta}\right) -\ell_{n}\left(\theta_{0}\right) \right) . \]

显然, 由于 \( \widehat{\theta} \) 最大化 \( \ell_{n}\left(\theta\right) \) , 有 \( \mathcal{LR}\geq0 \) 。泰勒展开式两边同乘 \( -2n \) , 得到

\[ \mathcal{LR}=\sqrt{n}\left(\widehat{\theta}-\theta_{0}\right) '\left(-\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\dot{\theta}\right) \right) \sqrt{n}\left(\widehat{\theta}-\theta_{0}\right) +o_{p}\left(1\right) . \]

注意, 当模型正确时, 我们能够得到:

\[\begin{split} \begin{aligned} -\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\theta_{0}\right) & \stackrel{p}{\to}-\mathcal{H}\left(\theta_{0}\right) =\mathcal{I}\left(\theta_{0}\right) \\ \sqrt{n}\left(\widehat{\theta}-\theta_{0}\right) & \stackrel{d}{\to}N\left(0, \mathcal{I}^{-1}\left(\theta_{0}\right) \right) .\end{aligned} \end{split}\]

根据 Slutsky 定理,

\[ \left(-\frac{\partial^{2}}{\partial\theta\partial\theta'}\ell_{n}\left(\dot{\theta}\right) \right) ^{1/2}\left[\sqrt{n}\left(\widehat{\theta}-\theta_{0}\right) \right]\stackrel{d}{\to}\mathcal{I}^{1/2}\left(\theta_{0}\right) \times N\left(0, \mathcal{I}^{-1}\left(\theta_{0}\right) \right) \sim N\left(0, I_{k}\right) . \]

根据连续映射定理,

\[ \mathcal{LR}\stackrel{d}{\to}\chi_{K}^{2}. \]

定理 8.1 (Wilks 定理)

当参数模型正确时, \( \mathcal{LR}\stackrel{d}{\to}\chi^{2}\left(K\right) \)

8.3.1. Score Test#

8.4. 置信区间#

区间估计(interval estimate) 是一个函数 \( C: \mathcal{X}^{n}\mapsto\left\{ \Theta_{1}: \Theta_{1}\subseteq\Theta\right\} \) , 它将样本空间中的点映射到参数空间。

区间估计量 \( C\left(\mathbf{X}\right) \)覆盖概率(coverage probability) 被定义为 \( P_{\theta}\left(\theta\in C\left(\mathbf{X}\right) \right) \) 。如果 \( \theta \) 是一维的,我们将区间估计量叫做 置信区间(confidence interval)。如果 \( \theta \) 是多维的,我们将区间估计量叫做 置信区域(confidence region)。当然,置信区域包括了一维置信区间的情况。覆盖概率是指区间估计量捕捉到生成样本的真实参数的频率。从频率学派的观点来看,真实参数 \(\theta\) 参数是固定的, 而置信区域是随机的。覆盖概率 不是 \( \theta \) 在给定的置信区间内的概率。

练习 8.1

假设一个尺度为6的随机样本产生于 \(\left(X_{1}, \ldots, X_{6}\right) \sim\text{iid }N\left(\theta, 1\right).\) 求随机区间 \( \left[\bar{X}-1.96/\sqrt{6}, \ \bar{X}+1.96/\sqrt{6}\right] \) 的覆盖概率。

假设检验和置信区域是密切相关的两个概念。有时, 直接构建置信区域是很困难的, 但检验假设却很容易。构建置信区域的一种方法是通过假设检验来反推(inversion)。若 \( \phi_{\theta} \) 是尺度为 \( \alpha \) 的检验,则 \( C\left(\mathbf{X}\right) \) 可以通过

\[ C\left(\mathbf{X}\right) =\left\{ \theta\in\Theta: \phi\left(\mathbf{X}\right) =0\right\}, \]

来构造,此时,真实参数 \( \theta \) 的覆盖概率为

\[ P_{\theta}\left\{ \theta\in C\left(\mathbf{X}\right) \right\} =P_{\theta}\left\{ \phi\left(\mathbf{X}\right) =0\right\} =1-P_{\theta}\left\{ \phi\left(\mathbf{X}\right) =1\right\} =1-\beta\left(\theta\right) \geq1-\alpha, \]

其中最后一个不等式是因为, 对于 \( \theta\in\Theta_{0} \) , 有 \( \beta\left(\theta\right) \leq\alpha \) 。如果 \( \Theta_{0} \) 是单元集, 那么等式成立。

knitr

8.5. 贝叶斯可信集#

贝叶斯框架为统计决策提供了另一套自然自洽的语言。然而, 对贝叶斯统计学的主要批评是来自其先验分布选择的任意性。

贝叶斯方法将数据 \( \mathbf{X}_{n} \) 和参数 \( \theta \) 都视为随机变量。在观察数据之前, 我们持有一个关于 \( \theta \)先验分布 \(\pi\) 。在观察数据之后, 我们将先验分布更新为 后验分布 \(p(\theta|\mathbf{X}_{n})\)贝叶斯定理 连接了先验分布和后验分布:

\[$ p(\theta|\mathbf{X}_{n}) \propto f(\mathbf{X}_{n}|\theta) \pi(\theta) . \]

其中 \( f(\mathbf{X}_{n}|\theta) \) 为似然函数。

例子 8.4

这里有一个说明贝叶斯统计推断的经典案例。假设 \( \mathbf{X}_{n}=(X_{1}, \ldots, X_{n}) \) 是取自正态分布 \( N(\theta, \sigma^2) \) 的iid随机样本, 其中 \( \theta \) 未知, \( \sigma \) 已知。如果先验分布是 \( \theta\sim N(\theta_{0}, \sigma_{0}^{2}) \) , 那么根据计算, 后验分布可写作

\[ p(\theta|\mathbf{x}_{n}) \sim N\left(\tilde{\theta}, \tilde{\sigma}^{2}\right) , \]

其中, \( \tilde{\theta}=\frac{\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\theta_{0}+\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{x} \) , 并且 \( \tilde{\sigma}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} \)。因此, 这里的贝叶斯可信集(Bayesian credible set)

\[ \left(\tilde{\theta}-z_{1-\alpha/2}\cdot\tilde{\sigma}, \ \tilde{\theta}+z_{1-\alpha/2}\cdot\tilde{\sigma}\right) . \]

后验分布取决于先验分布中的 \( \theta_{0} \)\( \sigma_{0}^{2} \)。当样本量足够大时,后验分布可以用 \( N(\bar{x}, \sigma^{2}/n) \) 来近似,其中先验分布的信息被数据积累的信息所覆盖。

另一方面, 频率学派的会认为 \( \hat{\theta}=\bar{x}\sim N(\theta, \sigma^{2}/n) \) 。置信区间为

\[ \left(\bar{x}-z_{1-\alpha/2}\cdot\sigma/\sqrt{n}, \ \bar{x}-z_{1-\alpha/2}\cdot\sigma/\sqrt{n}\right) . \]

对于有限的 \( n \) , 贝叶斯可信集与频率学派的置信区间是不同的;而当 \( n\to\infty \) 时, 二者等同。

8.6. 线性回归中的应用#

我们将介绍三种对线性回归系数假设的检验方法——Wald检验, 拉格朗日乘数(Lagrangian multiplier, LM) 检验, 似然比检验(LRT) 。Wald检验基于不受限制的OLS估计值 \( \widehat{\beta} \) ;LM检验基于限制性的OLS估计值 \( \tilde{\beta} \);而LRT基于对数似然函数在不受限制的OLS估计值与受限制的OLS估计值之间的差值。

\( R \) 为一个 \( q\times K \) 的常数矩阵, 其中 \( q\leq K \) , \( \mbox{rank}\left(R\right) =q \) 。所有关于 \( \beta \) 的线性限制都可以写成 \( R\beta=r \) 的形式, 其中 \( r \) 是一个 \( q\times1 \) 的常量向量。

例子 8.5

在上面的例子中, 我们想同时检验 \( \beta_{1}=1 \)\( \beta_{3}+\beta_{4}=2 \) 。零假设可以表达为 \( R\beta=r \) , 其中限制矩阵 \( R \) 可写作

\[\begin{split} R=\begin{pmatrix}1 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 1 & 0 \end{pmatrix}. \end{split}\]

另外, \( r=\left(1, 2\right) ' \)

8.6.1. Wald检验#

假设OLS估计量 \( \widehat{\beta} \) 是渐进正态的, 也就是说

\[ \sqrt{n}\left(\widehat{\beta}-\beta\right) \stackrel{d}{\to}N\left(0, \Omega\right) , \]

其中 \( \Omega \) 是一个 \( K\times K \) 的正定协方差矩阵。因为 \( R\sqrt{n}\left(\widehat{\beta}-\beta\right) \stackrel{d}{\to}N\left(0, R\Omega R'\right) \) , 二次型为:

\[ n\left(\widehat{\beta}-\beta\right) 'R'\left(R\Omega R'\right) ^{-1}R\left(\widehat{\beta}-\beta\right) \stackrel{d}{\to}\chi_{q}^{2}. \]

现在我们想要检验线性的零假设 \( R\beta=r \) 。在零假设下, Wald统计量被定义为

\[ \mathcal{W}=n\left(R\widehat{\beta}-r\right) '\left(R\widehat{\Omega}R'\right) ^{-1}\left(R\widehat{\beta}-r\right) \stackrel{d}{\to}\chi_{q}^{2}, \]

其中 \( \widehat{\Omega} \)\( \Omega \) 的相合估计量。

评注 8.1

上面的例子是关于单个系数的检验, 检验统计量是 t -统计量的平方, 而零分布是标准正态分布的平方。

我们可以使用Delta方法来检验回归系数的非线性约束。

例子 8.6

在线性回归中, 最佳的experience水平可以通过设置为一阶条件为0来寻找, 也就是 \( \beta_{3}+2\beta_{4}\mbox{experience}^{*}=0 \) 。我们试图检验, 最优的experience水平是否为20年, 也就是

\[ \mbox{experience}^{*}=-\frac{\beta_{3}}{2\beta_{4}}=20. \]

这是一个非线性的假设。如果 \( q\leq K \) , \( q \) 是限制的数量, 我们有

\[ n\left(f\left(\widehat{\theta}\right) -f\left(\theta_{0}\right) \right) '\left(\frac{\partial f}{\partial\theta}\left(\theta_{0}\right) \Omega\frac{\partial f}{\partial\theta}\left(\theta_{0}\right) '\right) ^{-1}\left(f\left(\widehat{\theta}\right) -f\left(\theta_{0}\right) \right) \stackrel{d}{\to}\chi_{q}^{2}. \]

在这个例子中, \( \theta=\beta \) , \( f\left(\beta\right) =-\beta_{3}/\left(2\beta_{4}\right) \)。其梯度为

\[ \frac{\partial f}{\partial\beta'}\left(\beta\right) =\left(0, 0, -\frac{1}{2\beta_{4}}, \frac{\beta_{3}}{2\beta_{4}^{2}}, 0\right) . \]

因为 \( \widehat{\beta}\stackrel{p}{\to}\beta_{0} \) , 根据Continuous mapping theorem, 如果 \( \beta_{0, 4}\neq0 \) , 则有 \( \frac{\partial}{\partial\beta}f\left(\widehat{\beta}\right) \stackrel{p}{\to}\frac{\partial}{\partial\beta}f\left(\beta_{0}\right) \) .

因此, 非线性的Wald检验即为

\[ \mathcal{W}=n\left(f\left(\widehat{\beta}\right) -20\right) '\left(\frac{\partial f}{\partial\beta'}\left(\widehat{\beta}\right) \widehat{\Omega}\frac{\partial f}{\partial\beta'}\left(\widehat{\beta}\right) \right) ^{-1}\left(f\left(\widehat{\beta}\right) -20\right) \stackrel{d}{\to}\chi_{1}^{2}. \]

这是一个渐进尺度正确的检验。

如果我们转换思路,上例的非线性假设可以写作线性零假设 \( \beta_{3}+40\beta_{4}=0 \) ,我们也可以因之构造出Wald统计量。一般来说, 在渐进等价的情况下, 线性假设比非线性假设更好, 因为在零假设下delta方法有近似误差。

8.6.2. 拉格朗日乘数检验#

Wald检验和LM检验的关键区别在于, 前者是非限制性的OLS估计, 而后者是限制性的OLS估计。估计限制性的OLS估计量

\[ \min_{\beta}\left(y-X\beta\right) '\left(y-X\beta\right) \mbox{ s.t. }R\beta=r. \]

我们知道, 有限制的最优化问题可以转化为无限制的问题

(8.1)#\[$ L\left(\beta, \lambda\right) =\frac{1}{2n}\left(y-X\beta\right) '\left(y-X\beta\right) +\lambda'\left(R\beta-r\right) . \]

上式中 \( L\left(\beta, \lambda\right) \) 是拉格朗日函数, \( \lambda \) 是拉格朗日乘数。

LM检验又被叫做 score检验 , 因为它依赖于受限OLS估计量的score函数。令(8.1)中一阶条件为0:

\[\begin{split} \begin{aligned} \frac{\partial}{\partial\beta}L & =-\frac{1}{n}X'\left(y-X\tilde{\beta}\right) +\tilde{\lambda}R=-\frac{1}{n}X'e+\frac{1}{n}X'X\left(\tilde{\beta}-\beta_{0}\right) +R'\tilde{\lambda}=0.\\ \frac{\partial}{\partial\lambda}L & =R\tilde{\beta}-r=R\left(\tilde{\beta}-\beta_{0}\right) =0, \end{aligned} \end{split}\]

其中 \( \tilde{\beta} \)\( \tilde{\lambda} \) 表示方程的根, \( \beta_{0} \) 是假设的真实值。这两个等式可写作一个线性系统

\[\begin{split} \begin{pmatrix}\widehat{Q} & R'\\ R & 0 \end{pmatrix}\begin{pmatrix}\tilde{\beta}-\beta_{0}\\ \tilde{\lambda} \end{pmatrix}=\begin{pmatrix}\frac{1}{n}X'e\\ 0 \end{pmatrix}, \end{split}\]

其中 \( \hat{Q}=X'X/n \) .

注意到

(8.2)#\[\begin{split} \begin{pmatrix}\widehat{Q}^{-1}-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1} & \widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}\\ \left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1} & -(R'Q^{-1}R) ^{-1} \end{pmatrix}\begin{pmatrix}\widehat{Q} & R'\\ R & 0 \end{pmatrix}=I_{K+q}. \end{split}\]

基于(8.2), 我们可以写出表达式

\[\begin{split} \begin{aligned} \begin{pmatrix}\tilde{\beta}-\beta_{0}\\ \tilde{\lambda} \end{pmatrix}\begin{aligned}=\end{aligned} & \begin{pmatrix}\widehat{Q}^{-1}-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1} & \widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}\\ \left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1} & -(R'Q^{-1}R) ^{-1} \end{pmatrix}\begin{pmatrix}\frac{1}{n}X'e\\ 0 \end{pmatrix}\\ = & \begin{pmatrix}\widehat{Q}^{-1}\frac{1}{n}X'e-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{n}X'e\\ \left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{n}X'e \end{pmatrix}\end{aligned} \end{split}\]

\( \tilde{\lambda} \) 的组成部分是

\[\begin{split} \begin{aligned} \sqrt{n}\tilde{\lambda} & =\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e\\ & \stackrel{d}{\to}N\left(0, \left(RQ^{-1}R'\right) ^{-1}RQ^{-1}\Omega Q^{-1}R'\left(RQ^{-1}R'\right) ^{-1}\right) , \end{aligned} \end{split}\]

因为 \( \widehat{Q}\stackrel{p}{\to}Q \) .

\( \Sigma=\left(RQ^{-1}R'\right) ^{-1}RQ^{-1}\Omega Q^{-1}R'\left(RQ^{-1}R'\right) ^{-1} \) , 我们有

\[ n\tilde{\lambda}'\Sigma^{-1}\tilde{\lambda}\stackrel{d}{\to}\chi_{q}^{2}. \]

\[ \widehat{\Sigma}=\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\widehat{\Omega}\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}. \]

如果 \( \widehat{\Omega}\stackrel{p}{\to}\Omega \) , 我们有

\[\begin{split} \begin{aligned} \mathcal{LM} & =n\tilde{\lambda}'\widehat{\Sigma}^{-1}\tilde{\lambda}=n\tilde{\lambda}'\Sigma^{-1}\tilde{\lambda}+n\tilde{\lambda}'\left(\widehat{\Sigma}^{-1}-\Sigma^{-1}\right) \tilde{\lambda}\\ & =n\tilde{\lambda}'\Sigma^{-1}\tilde{\lambda}+o_{p}\left(1\right) \stackrel{d}{\to}\chi_{q}^{2}.\end{aligned} \end{split}\]

这就是LM检验的一般表达形式。

在同方差性的特殊情况下, \( \Sigma=\sigma^{2}\left(RQ^{-1}R'\right) ^{-1}RQ^{-1}QQ^{-1}R'\left(RQ^{-1}R'\right) ^{-1}=\sigma^{2}\left(RQ^{-1}R'\right) ^{-1}. \)

\( \Sigma \) 替换为估计值 \( \hat{\Sigma} \) , 我们有

\[ \begin{aligned}\frac{n\tilde{\lambda}'R\hat{Q}^{-1}R'\tilde{\lambda}}{\hat{\sigma}^{2}} & =\frac{1}{n\hat{\sigma}^{2}}\left(y-X\tilde{\beta}\right) 'X\hat{Q}^{-1}R'(R\hat{Q}^{-1}R') ^{-1}R\hat{Q}^{-1}X'\left(y-X\tilde{\beta}\right) \stackrel{d}{\to}\chi_{q}^{2}.\end{aligned} \]

例子 8.7

现在, 如果我们检验最佳的experience水平是否为20年: \( \mbox{experience}^{*}=-\frac{\beta_{3}}{2\beta_{4}}=20. \) 那么, 我们 将 \( \beta_{3} \) 替换为 \( -40\beta_{4} \) , 就只用再检验三个斜率参数。另外, LM检验不受重新参数化的影响。

8.6.3. 似然比检验#

在上一节中, 我们已经讨论了LRT。这里我们把它放到具有高斯误差的线性回归背景下。令 \( \gamma=\sigma_{e}^{2} \) 。在回归模型的经典假设下,

\[ L_{n}\left(\beta, \gamma\right) =-\frac{n}{2}\log\left(2\pi\right) -\frac{n}{2}\log\gamma-\frac{1}{2\gamma}\left(Y-X\beta\right) '\left(Y-X\beta\right) . \]

对于无限制的估计量, 我们知道

\[ \widehat{\gamma}=\gamma\left(\widehat{\beta}\right) =n^{-1}\left(Y-X\widehat{\beta}\right) '\left(Y-X\widehat{\beta}\right) , \]

并且样本的对数似然函数在最大化(MLE) 时可写作

\[ \widehat{L}_{n}=L_{n}\left(\widehat{\beta}, \widehat{\gamma}\right) =-\frac{n}{2}\log\left(2\pi\right) -\frac{n}{2}\log\widehat{\gamma}-\frac{n}{2}. \]

对于有限制的估计量 \( \tilde{L}_{n}=L_{n}\left(\tilde{\beta}, \tilde{\gamma}\right) =-\frac{n}{2}\log\left(2\pi\right) -\frac{n}{2}\log\tilde{\gamma}-\frac{n}{2} \) , 似然比是

\[ \begin{aligned} \mathcal{LR} & =2\left(\widehat{L}_{n}-\tilde{L}_{n}\right) =n\log\left(\tilde{\gamma}/\widehat{\gamma}\right) .\end{aligned} \]

如果回归模型的误差呈正态分布, 那么有 \( \mathcal{LR}\stackrel{d}{\to}\chi_{q}^{2}. \)

现在, 我们抛弃误差呈正态分布这一假设, 但仍然保留条件同方差性。在这种情况下, 上面的结果并不适用, 因为 \( L_{n}\left(\beta, \gamma\right) \) 不再是对数似然函数, 我们在这里叫它 拟对数似然函数

根据 \( \log\left(1+\frac{\tilde{\gamma}-\widehat{\gamma}}{\widehat{\gamma}}\right) \)\( \log1=0 \) 处的泰勒展开,

(8.3)#\[\begin{split} \begin{aligned} \mathcal{LR} & =n\log\left(1+\frac{\tilde{\gamma}-\widehat{\gamma}}{\widehat{\gamma}}\right) =n\left(\log1+\frac{\tilde{\gamma}-\widehat{\gamma}}{\widehat{\gamma}}+O\left(\frac{\left|\tilde{\gamma}-\widehat{\gamma}\right|^{2}}{\widehat{\gamma}^{2}}\right) \right) \nonumber \\ & =n\frac{\tilde{\gamma}-\widehat{\gamma}}{\widehat{\gamma}}+o_{p}\left(1\right) .\end{aligned} \end{split}\]

我们关注到

(8.4)#\[\begin{split} \begin{aligned} n\left(\tilde{\gamma}-\widehat{\gamma}\right) & =n\left(\gamma\left(\tilde{\beta}\right) -\gamma\left(\widehat{\beta}\right) \right) \nonumber \\ & =n\left(\frac{\partial\gamma\left(\widehat{\beta}\right) }{\partial\beta}\left(\tilde{\beta}-\widehat{\beta}\right) +\frac{1}{2}\left(\tilde{\beta}-\widehat{\beta}\right) '\frac{\partial^{2}\gamma\left(\widehat{\beta}\right) }{\partial\beta\partial\beta'}\left(\tilde{\beta}-\widehat{\beta}\right) +O\left(\left\Vert \tilde{\beta}-\widehat{\beta}\right\Vert _{2}^{3}\right) \right) \nonumber \\ & =\sqrt{n}\left(\tilde{\beta}-\widehat{\beta}\right) '\widehat{Q}\sqrt{n}\left(\tilde{\beta}-\widehat{\beta}\right) +o_{p}\left(1\right) , \end{aligned} \end{split}\]

最后一行是因为 \( \frac{\partial\gamma\left(\widehat{\beta}\right) }{\partial\beta}=-\frac{2}{n}X'\left(Y-X\widehat{\beta}\right) =-\frac{2}{n}X'\widehat{e}=0 \) , 并且 \( \frac{1}{2}\cdot\frac{\partial^{2}\gamma\left(\widehat{\beta}\right) }{\partial\beta\partial\beta'}=\frac{1}{2}\cdot\frac{2}{n}X'X=\widehat{Q} \) .

根据LM检验的推导过程,

\[\begin{split} \begin{aligned}\sqrt{n}\left(\tilde{\beta}-\beta_{0}\right) & =\left(\widehat{Q}^{-1}-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\right) \frac{1}{\sqrt{n}}X'e\\ & =\frac{1}{\sqrt{n}}\left(X'X\right) ^{-1}X'e-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e\\ & =\sqrt{n}\left(\widehat{\beta}-\beta_{0}\right) -\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e. \end{aligned} \end{split}\]

重新排列得

\[ \sqrt{n}\left(\tilde{\beta}-\widehat{\beta}\right) =-\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e. \]

因此, 二次型可写作

(8.5)#\[\begin{split} \begin{aligned} & & \sqrt{n}\left(\tilde{\beta}-\widehat{\beta}\right) '\widehat{Q}\sqrt{n}\left(\tilde{\beta}-\widehat{\beta}\right) \nonumber \\ & = & \frac{1}{\sqrt{n}}e'X\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\widehat{Q}\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e\nonumber \\ & = & \frac{1}{\sqrt{n}}e'X\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e\nonumber \\ & = & \frac{1}{\sqrt{n}}e'X\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'e.\end{aligned} \end{split}\]

结合(8.3), (8.4), (8.5), 有

\[\begin{split} \begin{aligned} \mathcal{LR} & =n\frac{\sigma_{e}^{2}}{\widehat{\gamma}}\cdot\frac{\tilde{\gamma}-\widehat{\gamma}}{\sigma_{e}^{2}}+o_{p}\left(1\right) \\ & =\frac{\sigma_{e}^{2}}{\widehat{\gamma}}\frac{1}{\sqrt{n}}\frac{e}{\sigma_{e}}'X\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'\frac{e}{\sigma_{e}}+o_{p}\left(1\right) .\end{aligned} \end{split}\]

在同方差的假设下, 中心极限定理说明

\[\begin{split} \begin{aligned} R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'\frac{e}{\sigma_{e}} & =R\widehat{Q}^{-1/2}\widehat{Q}^{-1/2}\frac{1}{\sqrt{n}}X'\frac{e}{\sigma_{e}}\\ & \stackrel{d}{\to}RQ^{-1/2}\times N\left(0, I_{K}\right) \sim N\left(0, RQ^{-1}R'\right) , \end{aligned} \end{split}\]

因此

\[ \frac{1}{\sqrt{n}}\frac{e}{\sigma_{e}}'X\widehat{Q}^{-1}R'\left(R\widehat{Q}^{-1}R'\right) ^{-1}R\widehat{Q}^{-1}\frac{1}{\sqrt{n}}X'\frac{e}{\sigma_{e}}\stackrel{d}{\to}\chi_{q}^{2}. \]

另外, \( \frac{\sigma_{e}^{2}}{\widehat{\gamma}}\stackrel{p}{\to}1 \) .根据 Slutsky’s theorem, 在同方差的假设下, 我们有

\[ \mathcal{LR}\stackrel{d}{\to}\chi_{q}^{2}. \]

8.7. 总结#

不少应用计量经济学家希望在变量间建立统计学上的关联关系,甚至建立因果关系,因此他们非常看重假设检验,更有甚者,成为痴迷的观星者(stargazer)。假设检验是统计学中的重要领域。表格8.1中的状态和决策提醒了我们它和博弈论的关系。我作为一个参与者,正在与自然界进行一个序列博弈。

  • Step 0: 根据某个科学理论, 参数空间 \( \Theta \) 被划分为零假设 \( \Theta_{0} \) 和备择假设 \( \Theta_{1} \)

  • Step 1: 在我观察数据之前, 我根据 \( \Theta_{0}\)\( \Theta_{1} \) 设计了一个检验函数 \( \phi \) 。用博弈论的术语来说, \( \phi \) 就是我的 策略

  • Step 2: 一旦我观察到数据 \( \mathbf{x} \) , 我就按照 \( \phi\left(\mathbf{x}\right) \) 的指令行事——要么接受 \( \Theta_{0} \) , 要么拒绝 \( \Theta_{0} \)

  • Step 3: 自然界揭示了 \( \mathbf{x} \) 背后的真实参数 \( \theta^{*} \) , 而我可以评估我的决定的收益/损失 \( \phi\left(\mathbf{x}\right) \)

当损失函数(负收益函数) 写作

\[ \mathscr{L}\left(\theta, \phi\left(\mathbf{x}\right) \right) =\phi\left(\mathbf{x}\right) \cdot1\left\{ \theta\in\Theta_{0}\right\} +\left(1-\phi\left(\mathbf{x}\right) \right) \cdot1\left\{ \theta\in\Theta_{1}\right\} , \]

数据的随机性会带来风险(期望损失)

\[ \mathscr{R}\left(\theta, \phi\right) =E\left[\mathscr{L}\left(\theta, \phi\left(\mathbf{x}\right) \right) \right]=\beta_{\phi}\left(\theta\right) \cdot1\left\{ \theta\in\Theta_{0}\right\} +\left(1-\beta_{\phi}\left(\theta\right) \right) \cdot1\left\{ \theta\in\Theta_{1}\right\} . \]

我是一个理性的人。我了解游戏的结构之后,将力图在Step 1中好好设计我的策略,尽量降低我的风险。

如果我是一个频率学家, 要么 \( 1\left\{ \theta\in\Theta_{0}\right\} \) 发生, 要么 \( 1\left\{ \theta\in\Theta_{1}\right\} \) 发生。一个无偏的检验保证了 \( \sup_{\theta\in\Theta_{0}}\beta_{\phi}\left(\theta\right) \leq\alpha \)。在许多无偏的检验中,我要选择最好的那个。在一系列尺度为 \( \alpha \) 的无偏检验 \( \Psi_{\alpha} \) 中,如果存在一致功效最大的检验 \( \phi^{*} \),则对于任意 \( \theta\in\Theta_{1} \) ,都有 \( \mathscr{R}\left(\theta, \phi^{*}\right) \geq\sup_{\phi\in\Psi_{\alpha}}\mathscr{R}\left(\theta, \phi\right) \) 。当零假设与备择假设都是简单假设时, 根据 Neyman-Pearson 引理,似然比检验是一致功效最大的检验。

如果我是一个贝叶斯学家,我不介意将概率(权重)加于参数空间,这是我的先验信念 \( \pi\left(\theta\right) \)。那么我的贝叶斯风险为

\[\begin{split} \begin{aligned} \mathscr{BR}\left(\pi, \phi\right) & =E_{\pi\left(\theta\right) }\left[\mathscr{R}\left(\theta, \phi\right) \right]=\int\left[\beta_{\phi}\left(\theta\right) \cdot1\left\{ \theta\in\Theta_{0}\right\} +\left(1-\beta_{\phi}\left(\theta\right) \right) \cdot1\left\{ \theta\in\Theta_{1}\right\} \right]\pi\left(\theta\right) d\theta\\ & =\int_{\left\{ \theta\in\Theta_{0}\right\} }\beta_{\phi}\left(\theta\right) \pi\left(\theta\right) d\theta+\int_{\left\{ \theta\in\Theta_{1}\right\} }(1-\beta_{\phi}\left(\theta\right) ) \pi\left(\theta\right) d\theta.\end{aligned} \end{split}\]

这是一个在 \( \pi\left(\theta\right) \) 下平均零假设与备择假设过后的风险。

历史趣闻

假设检验形成于20世纪初。Karl Pearson(1957–1936) 奠定了假设检验的基础, 并引入了 \( \chi^{2} \) 检验、 \( p \) 值, 以及我们今天一直在使用的许多其他概念。Neyman-Pearson 引理是由 Jerzy Neyman(1894–1981) 与 Egon Pearson(1895–1980) 命名的, 后者是 Karl Pearson 的儿子。

拓展阅读

[Young and Smith, 2005]是一本简明而深入的统计推断参考书。