广义矩估计
Contents
12. 广义矩估计#
广义矩估计(Generalized method of moments, GMM )是基于矩估计思想拓展出来的一种估计方法。它的主要思想是,在矩条件的个数大于参数的个数的情况下,求解距离函数(矩二次型)的最小值。由此得到的估计量就是广义矩估计量。因此,对于那些本身就蕴含着矩条件的经济学模型来说,GMM无疑是方便有效的方法。自诞生以来,GMM就一直是当代计量经济学理论的宠儿。它是通用的方法,在它之前的最小二乘法(2SLS)、似无关回归(seemingly unrelated regression)以及Pooled OLS等一系列传统计量模型都是它的特殊情况。
12.1. 工具变量回归#
我们先来讨论有 \(K\) 个回归量的线性回归方程
在统计学视角中,只有可识别(identification)的结构方程才能够进行估计。 从计量的角度来说,可识别指的是对于联立方程模型中的每一个结构方程,在总体模型中都能够得到确定的唯一参数值。如果一个方程系统中存在一个不可识别的随机方程,那么我们认为该联立方程模型是不可识别的。
从数学推导的角度则可以这样理解:如果把所有工具变量所构成的向量记为 \(L\times1\) 的向量 \(z_{i}\) (可以包含 \(x_{i}\) ,即外生变量也能作为工具变量), \(z_{i}\) 满足 \(\mathbb{E}\left[z_{i}\epsilon_{i}\right]=0_{L}\) 且\(\Sigma:=\mathbb{E}\left[z_{i}x_{i}'\right]\) 列满秩;记 \(\beta_{0}\) 记为方程 \(E\left[z_{i}\left(y_{i}-x_{i}'\beta\right)\right]=0_{L}\) 的根,由于矩阵列满秩, \(\beta_{0}\) 为该线性方程组的唯一解。这种方程只有唯一解的情况就是我们所认为的成功识别。一般情况下,我们默认回归模型是可识别的。
12.1.1. 识别#
当 \(L=K\) ,我们称之为 恰好识别 (just-identified 或 exactly identified)。 通过正交条件能够得到:
于是我们可以得到封闭形式的 \(\beta_{0}\) :
求得 \(\beta_{0}\) 的封闭解后,我们就可以用样本矩来代替总体矩。这种方法是一种矩估计(method of moments)。
(封闭解)
封闭解:封闭解(Closed-form solution),也叫作解析解(Analytic solution)。就是将估计量表示为数据的具体显示函数。与之相对的是数值解(numerical solution),指的是不能通过计算得出具体的函数形式的解,只能够通过逼近或者插值等方法求解出特定问题对应的近似解的数值。
例如,最小二乘估计量 \(\hat\beta = \left(X'X\right)^{-1}X'Y\) 就是一个封闭解,因为等式右边是可观测数据 \(X\) 和 \(Y\) 的一个函数。相反,最小一乘估计(least absolute deviation) \(min_{\beta}\sum_{i=1}^n|y_i-x_i'\beta|\) 没有封闭解。
(正交条件)
正交条件:前面提到,\(\mathbb{E}\left[z_{i}\epsilon_{i}\right]=0_{L}\) 。这是由工具变量所提供的总体矩条件。而在统计学中,如果两个随机变量乘积的期望为0,则称这两个随机变量正交。因此,通常总体矩条件也会被称之为正交条件(orthogonality conditions)
而当 \(L>K\) ,模型过度识别(over identification)。根据正交条件,我们可以得到:
但由于 \(\Sigma\) 不是一个方阵,因此不能像 (12.1) 一样直接对 \(\Sigma\) 求逆来计算 \(\beta_{0}\)。 为了求解 \(\beta\),我们可以定义目标函数
其中 \(W\) 是一个 \(L\times L\) 的非随机正定对称矩阵(如何选择 \(W\) 的问题我们也将在后面讨论)。由于 \(Q\left(\beta\right)\) 为二次型,依据正定矩阵的定义,无论 \(\beta\) 为何值都满足 \(Q\left(\beta\right)\geq 0\) 。同时 识别 又意味着当且仅当 \(\beta=\beta_{0}\) 时成立。结合上述得:
即 \(\beta_{0}\) 是目标函数 \(Q\left(\beta\right)\) 取到最小值时对应的唯一参数值。 又因为 \(Q\left(\beta\right)\) 是一个 \(\beta\) 的光滑函数, \(\beta_{0}\) 可以用一阶条件来计算:
整理上方的等式得到:
在 \(\Sigma\) 满秩的条件下, \(L\times L\) 矩阵 \(\Sigma'W\Sigma\) 可逆, 因此我们解得:
由于模型中矩的数量 \(L\) 比未知参数 \(K\) 更多,我们称之为广义矩估计 。
上述等式也可以通过在 (12.2) 两边同时乘上 \(\Sigma'W\) 得到,从而避免了求解最小值的问题。
尽管我们把恰好识别和过度识别分开讨论,实际上(12.1)是(12.3) 的一种特殊情况。从这个角度上说,GMM是真正意义上的“广义”的矩估计。要理解这个概念,需要注意到当 \(L=K\) 时, 由于 \(\Sigma\) 是方阵,给定任意的 \(W\) 都能得到:
也就是说,在恰好识别的情况下 \(W\) 不会对结果产生任何的影响,任何的 \(W\) 都会得到相同的 \(\beta_{0}\) 。
12.2. GMM估计量#
在现实中,我们使用样本矩来代替对应的总体矩。依照它的总体公式写出GMM估计量表达式:
在恰好识别的情况下,2SLS估计量
是该表达式的一种特例。
同样的GMM估计量 \(\hat{\beta}\) 可以通过最小化如下函数得到:
或者简化为矩阵表达式: \(\hat{\beta}=\arg\min_{\beta}\left(y-X\beta\right)'ZWZ'\left(y-X\beta\right).\)
现在我们来验证 \(\widehat{\beta}\) 的渐近性质。以下是一系列的假设:
(大数定律)
\(Z'X/n\stackrel{\mathrm{p}}{\to}\Sigma\) 和 \(Z'\epsilon/n\stackrel{\mathrm{p}}{\to}0_{L}\)
大数定律我们可以使用大数定律让 \(Z'X/n\) 和 \(Z'\epsilon/n\) 依概率收敛于总体的真实值。
定理 11.1
基于假设大数定律, \(\widehat{\beta}\) 是相合的。
Proof. 这里的证明步骤与证明OLS估计量的相合性类似
为了验证渐近的正态性,我们假设中心极限定理成立。
(中心极限定理)
其中 \(\Omega=\mathbb{E}\left[z_{i}z_{i}'\epsilon_{i}^{2}\right].\)
(渐进正态性)
Proof. 在 \((\widehat{\beta}-\beta_{0})\) 之前乘上 \(\sqrt{n}\) 可以得到
依据Assumption 12.1和Assumption 12.2,就能得到结论如下:
而且
根据上述两个式子,代入(12.4),并使用Slusky’s Theorem,就能得到方差最小的有效估计量。
12.2.1. 有效GMM#
从(12.4)中我们可以清楚地知道,GMM估计量的渐近方差取决于 \(W\)。 哪一个 \(W\) 会使得渐近方差尽可能小呢? 答案是 \(W=\Omega^{-1}\)。将其代入公式就能得到有效渐近方差
以下证明其有效性
对于任意的正定对称矩阵 \(W\) ,它与渐近方差之间的差:
是半正定矩阵。
Proof. 为了简化符号,记 \(A:=W\Sigma\left(\Sigma'W\Sigma\right)^{-1}\) 以及 \(B:=\Omega^{-1}\Sigma\left(\Sigma'\Omega^{-1}\Sigma\right)^{-1}\) ,然后两个矩阵的差值变为:
注意到
该式能够得到 \(B'\Omega\left(A-B\right)=0\) 和 \(\left(A-B\right)'\Omega B=0\) 。进而可以得到结论
为半正定矩阵。
12.2.2. 两阶段GMM#
两阶段GMM 能够用来构造可行的有效GMM估计量。
(可行估计量)
这里的可行估计量指的是不带有任何的参数,可以直接利用数据计算的统计量。与之相对的,不可行统计量的表达式中存在需要估计的未知参数。实际中,我们无法直接通过数据求解不可行统计量。
如果我们选定任意 \(W\) ,比如令 \(W=I_{L}\) ,从而得到相合 (但通常不有效) 的估计量 \(\hat{\beta}^{\sharp}=\hat{\beta}^{\sharp}\left(W\right)\) 。 计算残差 \(\widehat{\epsilon}_{i}=y_{i}-x_{i}'\hat{\beta}^{\sharp}\) 并估计方差矩阵 \(\widehat{\Omega}=\frac{1}{n}\sum z_{i}z_{i}'\widehat{\epsilon}_{i}^{2}\) 。这时 \(\widehat{\Omega}\) 与 \(\Omega\) 相合。
设定 \(W=\widehat{\Omega}^{-1}\) ,获得第二个估计量:
第二个估计量是渐近有效的。
可以看出如果 \(\widehat{\Omega}\stackrel{p}{\to}\Omega\),那么 \(\sqrt{n}\left(\widehat{\beta}^{\natural}(\widehat{\Omega}^{-1})-\widehat{\beta}\left(\Omega^{-1}\right)\right)\stackrel{p}{\to}0\) 。 换言之,可行估计量 \(\widehat{\beta}^{\natural}(\widehat{\Omega}^{-1})\) 渐近等同于不可行但有效的估计量 \(\widehat{\beta}\left(\Omega^{-1}\right)\) 。
12.2.3. 两阶段最小二乘(2SLS)#
如果我们假设条件同方差成立: \(\mathbb{E}\left[\epsilon_{i}^{2}|z_{i}\right]=\sigma^{2}\),那么:
在两阶段 GMM 中的第一步中,我们可以用 \(\widehat{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}\widehat{\epsilon}_{i}^{2}\) 估计误差项的方差,用\(\widehat{\Omega}=\widehat{\sigma}^{2}\frac{1}{n}\sum_{i=1}^{n}z_{i}z_{i}'=\widehat{\sigma}^{2}Z'Z/n\) 估计方差矩阵。我们把 \(W=\widehat{\Omega}^{-1}\) 代入到 GMM 估计量中:
当 \(L>K\) 时,这个表达式与 2SLS 表达式完全一致。因此, 两阶段最小二乘可以被视为带有权重矩阵 \(\left(Z'Z/n\right)^{-1}\) 的特殊GMM。在条件同方差假设下,2SLS 是有效估计量。尽管 2SLS 十分受学者们的欢迎,但在异方差的情况下它并不是有效估计量。
就如同它的名字一样,2SLS 的计算分为两步: 首先用所有工具变量 \(Z\) 对 \(X\) 进行回归,之后用计算得到的预测值对 \(y\) 进行回归。不过,2SLS实际上可以通过上述等式一步得到,因为它是GMM的特例。
如果有效估计量不难计算,计量经济学者会更倾向于使用有效估计量。使用有效估计量的好处不仅仅在于系数估计更加精确。许多专门的检验,比如之后我们将介绍的 \(J\)-统计量,将依赖于有效估计量在原假设中得到 \(\chi^{2}\) 分布。否则它们的渐进分布将是非标准的,分布的临界值将只能用蒙特卡罗方法(Monte Carlo simulations)才能找到。
12.3. 非线性GMM模型#
GMM 的原理也适用于矩条件中存在非线性参数的模型。 令 \(g_{i}\left(\beta\right)=g\left(s_{i},\beta\right)\mapsto\mathbb{R}^{L}\) 为 \(s_{i}\) 和参数 \(\beta\) 的函数。如果在经济学理论中 \(\mathbb{E}\left[g_{i}\left(\beta\right)\right]=0\) (统计学家称之为 估计方程) 我们就可以将 GMM 总体目标方程写作:
线性模型是非线性模型的一种特殊情况。在前面章节提到的线性工具变量模型中,数据是 \(s_{i}=\left(y_{i},x_{i},z_{i}\right)\),且矩函数为 \(g\left(s_{i},\beta\right)=z_{i}'\left(y_{i}-x_{i}\beta\right)\).
在现实中,我们用样本矩来逼近目标函数的总体矩:
GMM估计量为:
尽管这些非线性模型往往不存在封闭解,但是它们的渐近性质依然成立。在此我们不给出具体证明,对这些渐近性质作一下简要介绍:
(a) 如果模型是可识别的,且对于任意常数 \(\varepsilon>0\)
于是, \(\hat{\beta}\stackrel{\mathrm{p}}{\to}\beta.\)
(b) 进而,如果 \(\frac{1}{\sqrt{n}}\sum_{i=1}^{n}g_{i}\left(\beta_{0}\right)\stackrel{d}{\to}N\left(0,\Omega\right)\) 且 \(\Sigma=\mathbb{E}\left[\frac{\partial}{\partial\beta'}g_{i}\left(\beta_{0}\right)\right]\) 是列满秩的,那么:
其中 \(\Omega=\mathbb{E}\left[g_{i}\left(\beta_{0}\right)g_{i}\left(\beta_{0}\right)'\right]\).
(c) 如果我们令 \(W=\Omega^{-1}\) ,能够得到有效估计量, 渐近方差会变为 \(\left(\Sigma'\Omega^{-1}\Sigma\right)^{-1}\)。
以上只列出了几个关键假设,而略过了其中的一些技术细节。
\(Q_{n}\left(\beta\right)\) 是测算这些矩与0之间距离的距离函数。适当的放缩后,它可以作为一个检验统计量。在原假设 \(\mathbb{E}\left[g_{i}\left(\beta\right)\right]=0_{L}\) 中, Sargan-Hansen \(J\)-检验可以帮助我们判断模型是否违反了矩条件。该检验统计具体如下:
其中 \(\widehat{\Omega}\) 是 \(\Omega\) 的相合估计量,且 \(\widehat{\beta}\) 是一个有效估计量,例如两阶段 GMM 估计量 \(\widehat{\beta}^{\natural}(\widehat{\Omega}^{-1})\) 。在分布中 \(J\) 统计量会收敛于一个自由度为 \(L-K\) 的 \(\chi^{2}\) 随机变量。也就是说,在原假设中:
如果原假设为假,往往检验统计量会偏大,从而更倾向于拒绝原假设。
12.4. 总结#
经济学理论往往没有足够的信息直接判断变量间的参数关系,而许多经济学假设中却都蕴含着矩约束条件,因此利用矩进行估计的GMM在计量研究中备受学者们的欢迎。例如,有效市场假设 表明未来的价格走势 \(\Delta p_{t+1}\) 不能用过去公开的信息集 \(\mathscr{I}_{t}\) 来准确预测,也就是 \(\mathbb{E}\left[\Delta p_{t+1}|\mathscr{I}_{t}\right]=0\) 。它表明信息集 \(\mathscr{I}_{t}\) 中变量的任意函数都与 \(\Delta p_{t+1}\) 正交。 于是我们可以建立一系列矩条件来检验有效市场假设。尽管GMM不难理解,并且有良好的渐近性质,但是在现实中它会遇到各种问题。因此有大量的经济学文献讨论GMM的局限性和它们的解决办法。
历史轶闻: 2SLS 的发现归功于 [Theil, 1953] 。在线性工具变量模型中, \(J\)-统计量由 [Sargan, 1958] 提出。 [Hansen, 1982] 把它推广到非线性模型中。
拓展阅读: GMM 的二次型在要面对大量的矩条件时,往往不能很好地估计每一个矩来拟合我们感兴趣的参数。 经验似然 是另一种可供选择的方法,它可以用来进行矩约束模型的估计。[Shi, 2016] 在经验似然的研究框架下解决了高维矩的估计问题。