假设检验
Contents
8. 假设检验#
数学标记: \( \mathbf{X} \) 是一个随机变量, 或随机向量; \( \mathbf{x} \) 是其实现值。
一个 假设(hypothesis) 是关于参数空间 \( \Theta \) 的陈述。
假设检验检查数据是否满足零假设(null hypothesis)\(\Theta_{0}\)。\(\Theta_{0}\) 是 \( \Theta \) 中研究者感兴趣的部分;它是 \( \Theta \) 的子集。理想情况下, 这一零假设应该是由科学理论提出的。备择假设(alternative hypothesis) \(\Theta_{1}=\Theta\backslash\Theta_{0}\) 是 \( \Theta_{0}\) 的补集。 基于观察到的数据, 我们选择接受或者拒绝零假设。如果零假设被拒绝, 则意味着从统计学角度来看, 数据与所提出的科学假说不相容。
在本章中,我们首先介绍假设检验的思想与实践,以及与之相关的置信区间。虽然我们主要以频率学派的观点理解假设检验,我们也简要地讨论贝叶斯学派的统计决策方法。另外,我们也引入假设检验在线性回归中的应用——如何在有限制与无限制的情况下,对(非)线性回归中的参数值进行假设检验。
8.1. 检验#
8.1.1. 决策规则与误差#
如果 \(\Theta_{0}\) 是单点集合, 我们称之为简单假设;否则, 我们称其为复合假设。例如,若参数空间 \(\Theta=\mathbb{R}\) , 则 \( \Theta_{0}=\left\{ 0\right\}\)(或等价于 \(\Theta_{0}=0\) ) 是一个简单假设,而 \(\Theta_{0}=(-\infty, 0]\)(或者等价于 \( \theta_{0}\leq0 \) ) 是一个复合假设。
检验函数(test function) 是一个映射
其中, \(\mathcal{X}\) 是样本空间。若 \(\phi\left(\mathbf{x}\right) =0\) , 则接受零假设;若 \( \phi\left(\mathbf{x}\right) =1 \) , 则拒绝零假设。
我们定义 接受域(acceptance region) 为 \( A_{\phi}=\left\{ \mathbf{x}\in\mathcal{X}^{n}: \phi_{\theta}\left(\mathbf{x}\right) =0\right\} \) , 其补集 \( R_{\phi}=\left\{ \mathbf{x}\in\mathcal{X}^{n}: \phi\left(\mathbf{x}\right) =1\right\} \) 称为拒绝域(rejection region)。
检验 \( \phi \) 的功效函数(power function) 被定义为
功效函数衡量的是当数据由真实参数 \(\theta\) 产生时,检验函数拒绝零假设的概率。上式中 \(P_{\theta}\) 与 \(E_{\theta}\) 体现了功效函数依赖于真实参数 \(\theta_0\)。
对于某参数值 \(\theta\in\Theta_{1}\) 检验的功效(power) 被定义为 \( \beta\left(\theta\right) \) ,检验的 尺度(size) 被定义为 \( \sup_{\theta\in\Theta_{0}}\beta\left(\theta\right)\) 。
注意, 检验功效的定义取决于备择假设 \( \Theta_{1} \) 中的 \( \theta \) ;而检验尺度的定义与具体的 \( \theta \) 值无关, 因为它是零假设 \( \Theta_{0} \) 的上确界。当难以推导出精确的上确界时, 我们也常用水平(level) \( \alpha \) 这一概念来衡量检验, 水平 \( \alpha\in\left(0, 1\right) \) 是任意使得 \( \alpha\geq\sup_{\theta\in\Theta_{0}}\beta\left(\theta\right) \) 成立的值。
一个尺度为 \( \alpha \) 的检验, 其水平一定大于等于 \( \alpha \) ;一个水平为 \( \alpha \) 的检验,其尺度一定小于等于 \( \alpha \) 。
例如, 我们从某未知联合分布中随机抽取 \( \left(X_{1i}, X_{2i}\right) _{i=1}^{n} \) 。对于 \( j=1, 2 \) , 已知边际分布 \( X_{ji}\sim N\left(\theta_{j}, 1\right) \) 。为了检验联合假设 \( \theta_{1}=\theta_{2}=0 \) , 我们可以构造一个检验函数
其中 \( z_{1-\alpha/4} \) 是标准正态分布的 \( \left(1-\alpha/4\right) \) 分位数。该检验的水平是
上式中的不等式可由下方的Bonferroni不等式推导得出。
因此, 检验 \( \phi\left(\mathbf{X}_{1}, \mathbf{X}_{2}\right) \) 的水平为 \( \alpha \) 。但该检验的具体尺度未知, 除非我们可以得到有关该联合分布的具体信息。即使我们知道 \( X_{1i} \) 和 \( X_{2i} \) 的相关性, 将两个边际正态分布放在一起,并不能确认它们构成联合正态分布。
接受 \( H_{0} \) |
拒绝 \( H_{0} \) |
|
---|---|---|
\( H_{0} \) 成立 |
正确 |
第一类错误 |
\( H_{0} \) 不成立 |
第二类错误 |
正确 |
犯 第一类错误(Type I error) 的 概率 为 \( \beta\left(\theta\right) \) , 其中 \( \theta\in\Theta_{0} \) .
犯 第二类错误(Type II error) 的 概率 为 \( 1-\beta\left(\theta\right) \) , 其中 \( \theta\in\Theta_{1} \) .
假设检验的哲学理念是一个争论不休的话题。目前, 统计学教科书中普遍采用的框架是 频率学派的观点 。频率学派认为参数是一个固定的常数。他们对第一类错误秉持着非常保守的态度: 只有在有充足证据的情况下, 才可以拒绝零假设。在“保护零假设”这一原则下, 一个理想的检验应该有一个较小的水平。传统上我们采用 \( \alpha=0.01, 0.05\) 或者 \(0.1\)。如果 \( \beta\left(\theta\right) \geq\sup_{\theta\in\Theta_{0}}\beta\left(\theta\right) \) , 我们说一个测试是 无偏的 。对于所有 \( \Theta\in \Theta_{1} \) 来说, 可以存在很多正确尺度的检验。
对于任意 \( \theta\in\Theta \) ,我们构造一个很简单的检验函数 \( \phi(\mathbf{x}) =1\left\{ 0\leq U\leq\alpha\right\} \) ,其中 \( U \) 是取自在 \( \left[0, 1\right] \) 上的均匀分布。该检验有着正确尺度的 \( \alpha \),但功效未知。在另一极端情况下, 检验函数 \( \phi\left(\mathbf{x}\right) =1 \) 拥有最大的功效, 但尺度是错误的。
一般来说,假设检验的具体操作需要我们提出检验统计量 \( T_{n}: \mathcal{X}^{n}\mapsto\mathbb{R}^{+} \) 及相应的临界值 \( c_{1-\alpha} \)。对于给定的 \( T_{n} \) 与 \( c_{1-\alpha} \),检验函数可写作:
为了保证该检验 \( \phi\left(\mathbf{x}\right) \) 有着正确的尺度, 我们需要找到 \( T_{n} \) 在零假设下的分布(零分布,null distribution),然后通过零假设与理想的检验尺度/水平, 找到一个临界值 \( c_{1-\alpha} \) 。
另一个在假设检验中常见的指标是 \( p \) -值:
在上述表达式中, \( T_{n}\left(\mathbf{x}\right) \) 是检验统计量 \( T_{n} \) 的实际数值, 而 \( T_{n}\left(\mathbf{X}\right) \) 是由零分布 \( \theta\in\Theta_{0} \) 产生的随机变量。 \( p \) -值的意义则是, 在零假设成立的情况下, 我们观测到 \( T_{n}(\mathbf{X}) \) 大于等于实际数值 \( T_{n}(\mathbf{x}) \) 的概率。
注意, \( p \) -值 不是 零假设为真的概率。在频率学派的观点下, 零假设只有“真”和“假”两种可能中的一种,它具有确定性。检验的随机性只来自抽样,不来自假设本身。 \( p \) -值衡量数据集是否与零假设相符,此只与它相应的检验相关。当 \( p \) 值小于指定的检验尺度 \(\alpha\) 时, 我们拒绝零假设。
到目前为止, 我们讨论了有限样本的假设检验。当 \( n\to\infty \) 时, 这些概念依然成立。如果我们把功效函数表示为 \( \beta_{n}\left(\theta\right) \) ,将其对样本量 \(n\) 的依赖明确标示。对于 \( \theta\in\Theta_{0} \) , 有 \( \limsup_{n\to\infty}\beta_{n}\left(\theta\right) \leq\alpha \),那么这个检验的渐进尺度(asymptotic size) 为 \( \alpha \) 。
如果对于任意 \( \theta\in\Theta_{1} \),都有 \( \beta_{n}\left(\theta\right) \to1 \),那么该检验是 相合的(consistent)。
8.2. 最优性#
统计理论中, 同一个参数估计可以产生多个合理的估计值, 同一个假设检验也可以有多个合理的检验。在零假设 \( \Psi_{\alpha}=\left\{ \phi: \sup_{\theta\in\Theta_{0}}\beta_{\phi}\left(\theta\right) \leq\alpha\right\} \) 下( \( \beta_{\phi}\left(\theta\right) \) 中的下标 \( \phi \) 代表不同的检验),对于有着相同水平 \( \alpha \) 的检验来说, 我们自然会偏好在备择假设的每个点都有着最高功效的 \( \phi^{*} \) , 也就是对于每个 \( \phi\in\Psi_{\alpha} \) 来说,都有
如果这样的检验 \( \phi^{*}\in\Psi_{\alpha} \) 成立, 我们称之为 一致最大功效检验(uniformly most powerful test),简称UMP检验。
假设一个尺度为6的随机样本产生于
其中 \( \theta \) 是未知的。我们想要推断该正态分布的均值。零假设为 \( H_{0} \) : \( \theta\leq0 \) , 备择假设为 \( H_{1} \) : \( \theta>0 \) 。所有满足
的检验都有正确的水平。
因为 \( \bar{X}=N\left(\theta, 1/6\right) \) , 这些检验 \( \Psi \) 的功效函数为
其中, 根据标准正态分布, \( N=\frac{\bar{X}-\theta}{1/\sqrt{6}} \) ; \( \Phi \) 是标准正态分布的CDF。
因为 \( \beta_{\phi}\left(\theta\right) \) 对 \( c \) 单调递减, 因此检验函数
在 \( \Psi \) 中功效最大, 因为 \( c=1.64 \) 是在保证水平 \( \alpha \) 不变的基础上, \( c \) 所能取的最下界。
8.3. 似然比检验与Wilks定理#
当估计值不能写作闭合形式时, 似然比检验(Likeelihood-ratio test, LRT)就起到重要作用。令样本的平均对数似然函数为 \( \ell_{n}\left(\theta\right) =n^{-1}\sum_{i}\log f\left(x_{i};\theta\right) \) , 那么 \( \widehat{\theta}=\arg\max_{\theta\in\Theta}\ell_{n}\left(\theta\right) \) 是最大似然估计值(maximum likelihood estimator, MLE)。在 \( \ell_{n}\left(\widehat{\theta}\right) \) 处对 \( \ell_{n}\left(\theta_{0}\right) \) 取泰勒展开:
其中, 因为一阶条件, \( \frac{\partial\ell_{n}}{\partial\theta}\left(\widehat{\theta}\right) =0 \)
定义 \( L_{n}\left(\theta\right) : =\sum_{i}\log f\left(x_{i};\theta\right) \) , 似然比统计量(likelihood-ratio statistic) 为
显然, 由于 \( \widehat{\theta} \) 最大化 \( \ell_{n}\left(\theta\right) \) , 有 \( \mathcal{LR}\geq0 \) 。泰勒展开式两边同乘 \( -2n \) , 得到
注意, 当模型正确时, 我们能够得到:
根据 Slutsky 定理,
根据连续映射定理,
(Wilks 定理)
当参数模型正确时, \( \mathcal{LR}\stackrel{d}{\to}\chi^{2}\left(K\right) \) 。
8.3.1. Score Test#
8.4. 置信区间#
区间估计(interval estimate) 是一个函数 \( C: \mathcal{X}^{n}\mapsto\left\{ \Theta_{1}: \Theta_{1}\subseteq\Theta\right\} \) , 它将样本空间中的点映射到参数空间。
区间估计量 \( C\left(\mathbf{X}\right) \) 的覆盖概率(coverage probability) 被定义为 \( P_{\theta}\left(\theta\in C\left(\mathbf{X}\right) \right) \) 。如果 \( \theta \) 是一维的,我们将区间估计量叫做 置信区间(confidence interval)。如果 \( \theta \) 是多维的,我们将区间估计量叫做 置信区域(confidence region)。当然,置信区域包括了一维置信区间的情况。覆盖概率是指区间估计量捕捉到生成样本的真实参数的频率。从频率学派的观点来看,真实参数 \(\theta\) 参数是固定的, 而置信区域是随机的。覆盖概率 不是 \( \theta \) 在给定的置信区间内的概率。
假设一个尺度为6的随机样本产生于 \(\left(X_{1}, \ldots, X_{6}\right) \sim\text{iid }N\left(\theta, 1\right).\) 求随机区间 \( \left[\bar{X}-1.96/\sqrt{6}, \ \bar{X}+1.96/\sqrt{6}\right] \) 的覆盖概率。
假设检验和置信区域是密切相关的两个概念。有时, 直接构建置信区域是很困难的, 但检验假设却很容易。构建置信区域的一种方法是通过假设检验来反推(inversion)。若 \( \phi_{\theta} \) 是尺度为 \( \alpha \) 的检验,则 \( C\left(\mathbf{X}\right) \) 可以通过
来构造,此时,真实参数 \( \theta \) 的覆盖概率为
其中最后一个不等式是因为, 对于 \( \theta\in\Theta_{0} \) , 有 \( \beta\left(\theta\right) \leq\alpha \) 。如果 \( \Theta_{0} \) 是单元集, 那么等式成立。
knitr
8.5. 贝叶斯可信集#
贝叶斯框架为统计决策提供了另一套自然自洽的语言。然而, 对贝叶斯统计学的主要批评是来自其先验分布选择的任意性。
贝叶斯方法将数据 \( \mathbf{X}_{n} \) 和参数 \( \theta \) 都视为随机变量。在观察数据之前, 我们持有一个关于 \( \theta \) 的 先验分布 \(\pi\) 。在观察数据之后, 我们将先验分布更新为 后验分布 \(p(\theta|\mathbf{X}_{n})\) 。贝叶斯定理 连接了先验分布和后验分布:
其中 \( f(\mathbf{X}_{n}|\theta) \) 为似然函数。
这里有一个说明贝叶斯统计推断的经典案例。假设 \( \mathbf{X}_{n}=(X_{1}, \ldots, X_{n}) \) 是取自正态分布 \( N(\theta, \sigma^2) \) 的iid随机样本, 其中 \( \theta \) 未知, \( \sigma \) 已知。如果先验分布是 \( \theta\sim N(\theta_{0}, \sigma_{0}^{2}) \) , 那么根据计算, 后验分布可写作
其中, \( \tilde{\theta}=\frac{\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\theta_{0}+\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{x} \) , 并且 \( \tilde{\sigma}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} \)。因此, 这里的贝叶斯可信集(Bayesian credible set) 是
后验分布取决于先验分布中的 \( \theta_{0} \) 与 \( \sigma_{0}^{2} \)。当样本量足够大时,后验分布可以用 \( N(\bar{x}, \sigma^{2}/n) \) 来近似,其中先验分布的信息被数据积累的信息所覆盖。
另一方面, 频率学派的会认为 \( \hat{\theta}=\bar{x}\sim N(\theta, \sigma^{2}/n) \) 。置信区间为
对于有限的 \( n \) , 贝叶斯可信集与频率学派的置信区间是不同的;而当 \( n\to\infty \) 时, 二者等同。
8.6. 线性回归中的应用#
我们将介绍三种对线性回归系数假设的检验方法——Wald检验, 拉格朗日乘数(Lagrangian multiplier, LM) 检验, 似然比检验(LRT) 。Wald检验基于不受限制的OLS估计值 \( \widehat{\beta} \) ;LM检验基于限制性的OLS估计值 \( \tilde{\beta} \);而LRT基于对数似然函数在不受限制的OLS估计值与受限制的OLS估计值之间的差值。
记 \( R \) 为一个 \( q\times K \) 的常数矩阵, 其中 \( q\leq K \) , \( \mbox{rank}\left(R\right) =q \) 。所有关于 \( \beta \) 的线性限制都可以写成 \( R\beta=r \) 的形式, 其中 \( r \) 是一个 \( q\times1 \) 的常量向量。
在上面的例子中, 我们想同时检验 \( \beta_{1}=1 \) 和 \( \beta_{3}+\beta_{4}=2 \) 。零假设可以表达为 \( R\beta=r \) , 其中限制矩阵 \( R \) 可写作
另外, \( r=\left(1, 2\right) ' \) 。
8.6.1. Wald检验#
假设OLS估计量 \( \widehat{\beta} \) 是渐进正态的, 也就是说
其中 \( \Omega \) 是一个 \( K\times K \) 的正定协方差矩阵。因为 \( R\sqrt{n}\left(\widehat{\beta}-\beta\right) \stackrel{d}{\to}N\left(0, R\Omega R'\right) \) , 二次型为:
现在我们想要检验线性的零假设 \( R\beta=r \) 。在零假设下, Wald统计量被定义为
其中 \( \widehat{\Omega} \) 是 \( \Omega \) 的相合估计量。
上面的例子是关于单个系数的检验, 检验统计量是 t -统计量的平方, 而零分布是标准正态分布的平方。
我们可以使用Delta方法来检验回归系数的非线性约束。
在线性回归中, 最佳的experience水平可以通过设置为一阶条件为0来寻找, 也就是 \( \beta_{3}+2\beta_{4}\mbox{experience}^{*}=0 \) 。我们试图检验, 最优的experience水平是否为20年, 也就是
这是一个非线性的假设。如果 \( q\leq K \) , \( q \) 是限制的数量, 我们有
在这个例子中, \( \theta=\beta \) , \( f\left(\beta\right) =-\beta_{3}/\left(2\beta_{4}\right) \)。其梯度为
因为 \( \widehat{\beta}\stackrel{p}{\to}\beta_{0} \) , 根据Continuous mapping theorem, 如果 \( \beta_{0, 4}\neq0 \) , 则有 \( \frac{\partial}{\partial\beta}f\left(\widehat{\beta}\right) \stackrel{p}{\to}\frac{\partial}{\partial\beta}f\left(\beta_{0}\right) \) .
因此, 非线性的Wald检验即为
这是一个渐进尺度正确的检验。
如果我们转换思路,上例的非线性假设可以写作线性零假设 \( \beta_{3}+40\beta_{4}=0 \) ,我们也可以因之构造出Wald统计量。一般来说, 在渐进等价的情况下, 线性假设比非线性假设更好, 因为在零假设下delta方法有近似误差。
8.6.2. 拉格朗日乘数检验#
Wald检验和LM检验的关键区别在于, 前者是非限制性的OLS估计, 而后者是限制性的OLS估计。估计限制性的OLS估计量
我们知道, 有限制的最优化问题可以转化为无限制的问题
上式中 \( L\left(\beta, \lambda\right) \) 是拉格朗日函数, \( \lambda \) 是拉格朗日乘数。
LM检验又被叫做 score检验 , 因为它依赖于受限OLS估计量的score函数。令(8.1)中一阶条件为0:
其中 \( \tilde{\beta} \) 和 \( \tilde{\lambda} \) 表示方程的根, \( \beta_{0} \) 是假设的真实值。这两个等式可写作一个线性系统
其中 \( \hat{Q}=X'X/n \) .
注意到
基于(8.2), 我们可以写出表达式
\( \tilde{\lambda} \) 的组成部分是
因为 \( \widehat{Q}\stackrel{p}{\to}Q \) .
记 \( \Sigma=\left(RQ^{-1}R'\right) ^{-1}RQ^{-1}\Omega Q^{-1}R'\left(RQ^{-1}R'\right) ^{-1} \) , 我们有
令
如果 \( \widehat{\Omega}\stackrel{p}{\to}\Omega \) , 我们有
这就是LM检验的一般表达形式。
在同方差性的特殊情况下, \( \Sigma=\sigma^{2}\left(RQ^{-1}R'\right) ^{-1}RQ^{-1}QQ^{-1}R'\left(RQ^{-1}R'\right) ^{-1}=\sigma^{2}\left(RQ^{-1}R'\right) ^{-1}. \)
将 \( \Sigma \) 替换为估计值 \( \hat{\Sigma} \) , 我们有
现在, 如果我们检验最佳的experience水平是否为20年: \( \mbox{experience}^{*}=-\frac{\beta_{3}}{2\beta_{4}}=20. \) 那么, 我们 将 \( \beta_{3} \) 替换为 \( -40\beta_{4} \) , 就只用再检验三个斜率参数。另外, LM检验不受重新参数化的影响。
8.6.3. 似然比检验#
在上一节中, 我们已经讨论了LRT。这里我们把它放到具有高斯误差的线性回归背景下。令 \( \gamma=\sigma_{e}^{2} \) 。在回归模型的经典假设下,
对于无限制的估计量, 我们知道
并且样本的对数似然函数在最大化(MLE) 时可写作
对于有限制的估计量 \( \tilde{L}_{n}=L_{n}\left(\tilde{\beta}, \tilde{\gamma}\right) =-\frac{n}{2}\log\left(2\pi\right) -\frac{n}{2}\log\tilde{\gamma}-\frac{n}{2} \) , 似然比是
如果回归模型的误差呈正态分布, 那么有 \( \mathcal{LR}\stackrel{d}{\to}\chi_{q}^{2}. \)
现在, 我们抛弃误差呈正态分布这一假设, 但仍然保留条件同方差性。在这种情况下, 上面的结果并不适用, 因为 \( L_{n}\left(\beta, \gamma\right) \) 不再是对数似然函数, 我们在这里叫它 拟对数似然函数 。
根据 \( \log\left(1+\frac{\tilde{\gamma}-\widehat{\gamma}}{\widehat{\gamma}}\right) \) 在 \( \log1=0 \) 处的泰勒展开,
我们关注到
最后一行是因为 \( \frac{\partial\gamma\left(\widehat{\beta}\right) }{\partial\beta}=-\frac{2}{n}X'\left(Y-X\widehat{\beta}\right) =-\frac{2}{n}X'\widehat{e}=0 \) , 并且 \( \frac{1}{2}\cdot\frac{\partial^{2}\gamma\left(\widehat{\beta}\right) }{\partial\beta\partial\beta'}=\frac{1}{2}\cdot\frac{2}{n}X'X=\widehat{Q} \) .
根据LM检验的推导过程,
重新排列得
因此, 二次型可写作
在同方差的假设下, 中心极限定理说明
因此
另外, \( \frac{\sigma_{e}^{2}}{\widehat{\gamma}}\stackrel{p}{\to}1 \) .根据 Slutsky’s theorem, 在同方差的假设下, 我们有
8.7. 总结#
不少应用计量经济学家希望在变量间建立统计学上的关联关系,甚至建立因果关系,因此他们非常看重假设检验,更有甚者,成为痴迷的观星者(stargazer)。假设检验是统计学中的重要领域。表格8.1中的状态和决策提醒了我们它和博弈论的关系。我作为一个参与者,正在与自然界进行一个序列博弈。
Step 0: 根据某个科学理论, 参数空间 \( \Theta \) 被划分为零假设 \( \Theta_{0} \) 和备择假设 \( \Theta_{1} \) 。
Step 1: 在我观察数据之前, 我根据 \( \Theta_{0}\) 和 \( \Theta_{1} \) 设计了一个检验函数 \( \phi \) 。用博弈论的术语来说, \( \phi \) 就是我的 策略 。
Step 2: 一旦我观察到数据 \( \mathbf{x} \) , 我就按照 \( \phi\left(\mathbf{x}\right) \) 的指令行事——要么接受 \( \Theta_{0} \) , 要么拒绝 \( \Theta_{0} \) 。
Step 3: 自然界揭示了 \( \mathbf{x} \) 背后的真实参数 \( \theta^{*} \) , 而我可以评估我的决定的收益/损失 \( \phi\left(\mathbf{x}\right) \) 。
当损失函数(负收益函数) 写作
数据的随机性会带来风险(期望损失)
我是一个理性的人。我了解游戏的结构之后,将力图在Step 1中好好设计我的策略,尽量降低我的风险。
如果我是一个频率学家, 要么 \( 1\left\{ \theta\in\Theta_{0}\right\} \) 发生, 要么 \( 1\left\{ \theta\in\Theta_{1}\right\} \) 发生。一个无偏的检验保证了 \( \sup_{\theta\in\Theta_{0}}\beta_{\phi}\left(\theta\right) \leq\alpha \)。在许多无偏的检验中,我要选择最好的那个。在一系列尺度为 \( \alpha \) 的无偏检验 \( \Psi_{\alpha} \) 中,如果存在一致功效最大的检验 \( \phi^{*} \),则对于任意 \( \theta\in\Theta_{1} \) ,都有 \( \mathscr{R}\left(\theta, \phi^{*}\right) \geq\sup_{\phi\in\Psi_{\alpha}}\mathscr{R}\left(\theta, \phi\right) \) 。当零假设与备择假设都是简单假设时, 根据 Neyman-Pearson 引理,似然比检验是一致功效最大的检验。
如果我是一个贝叶斯学家,我不介意将概率(权重)加于参数空间,这是我的先验信念 \( \pi\left(\theta\right) \)。那么我的贝叶斯风险为
这是一个在 \( \pi\left(\theta\right) \) 下平均零假设与备择假设过后的风险。
历史趣闻
假设检验形成于20世纪初。Karl Pearson(1957–1936) 奠定了假设检验的基础, 并引入了 \( \chi^{2} \) 检验、 \( p \) 值, 以及我们今天一直在使用的许多其他概念。Neyman-Pearson 引理是由 Jerzy Neyman(1894–1981) 与 Egon Pearson(1895–1980) 命名的, 后者是 Karl Pearson 的儿子。
拓展阅读
[Young and Smith, 2005]是一本简明而深入的统计推断参考书。