11. 内生性#

在微观经济分析中,外生变量指的是那些在我们的经济体系之外决定的因素, 而内生变量则是在经济体系之内被决定的因素。

例子 11.1

以下是我们碰到过多次的微观经济学习题。如果一个人的效用函数是 \(u\left(q_{1},q_{2}\right)\),其中 \(q_{1}\)\(q_{2}\) 是两种商品的数量。他的预算约束是 \(p_{1}q_{1}+p_{2}q_{2}\leq C\),其中 \(p_{1}\)\(p_{2}\) 分别是两种商品的价格。那么他会购买的最优数量 \(q_{1}^{*}\)\(q_{2}^{*}\) 是多少?在这个问题中,效用函数 \(u\left(\cdot,\cdot\right)\),物品价格 \(p_{1}\)\(p_{2}\),和预算 \(C\) 是外生变量。 而最优数量 \(q_{1}^{*}\)\(q_{2}^{*}\) 是内生变量。

微观经济学中的概念内生性外生性被借用到多方程计量模型。在单方程回归模型中,

(11.1)#\[ y_{i}=x_{i}'\beta+e_{i} \]

只是方程系统中的一部分。在单方程模型中,我们采取一种简单机械的分类方法:如果 \(\mathrm{cov}\left(x_{ik},e_{i}\right)\neq0\), 那么我们就称 \(x_{ik}\)内生的 ,或者说是一个内生性变量; 反之 \(x_{ik}\) 就是一个外生性变量

线性回归的实证分析常常遇到内生性问题的挑战。这些问题常见于经济研讨会和审稿报告。 为了定量经济研究中的实证分析策略能够站得住脚,了解潜在内生性的来源和全面地讨论如何解决内生性非常重要。

11.1. 识别#

内生性通常意味着仅用 \(\left(y_{i},x_{i}\right)\) 难以识别我们感兴趣的参数。内生性的鉴别对于理解实证经济研究是至关重要的。如果模型中的参数与被观测变量的分布之间的映射是一一对应的,那我们就认为这个参数是被识别的。反之我们就称该模型的参数识别不足。 这是一个抽象的定义, 我们可以在线性回归的背景下来讨论它。

例子 11.2

线性投影模型隐含了矩方程:

\[ \mathbb{E}\left[x_{i}x_{i}'\right]\beta=\mathbb{E}\left[x_{i}y_{i}\right]. \]

如果 \(E\left[x_{i}x_{i}'\right]\) 满秩,那么 \(\beta=\left(\mathbb{E}\left[x_{i}x_{i}'\right]\right)^{-1}\mathbb{E}\left[x_{i}y_{i}\right]\) 是总体矩的一个函数,并且它是可识别的。与之相对,如果一些 \(x_{k}\) 是完全共线, 意味着 \(\mathbb{E}\left[x_{i}x_{i}'\right]\) 不满秩,即有多个 \(\beta\) 可以满足该 \(k\) 方程系统。

例子 11.3

假设 \(x_{i}\) 是一个随机的标量,

\[\begin{split} \begin{pmatrix}x_{i}\\ e_{i} \end{pmatrix}\sim N\left(\begin{pmatrix}0\\ 0 \end{pmatrix},\begin{pmatrix}1 & \sigma_{xe}\\ \sigma_{xe} & 1 \end{pmatrix}\right) \end{split}\]

服从联合正态分布,并且因变量 \(y_{i}\) 来源于 (11.1)。 联合正态分布的假设意味着条件均值

\[ \mathbb{E}\left[y_{i}|x_{i}\right]=\beta x_{i}+\mathbb{E}\left[e_{i}|x_{i}\right]=\left(\beta+\sigma_{xe}\right)x_{i} \]

与线性投影模型一致,并且 \(\beta+\sigma_{xe}\) 是联合投影模型中的系数。 从可观察的随机变量 \(\left(y_{i},x_{i}\right)\) 中,我们只能得到 \(\beta+\sigma_{xe}\)。 由于无法观测到 \(e_{i}\),我们从数据中不能得出 \(\sigma_{xe}\),因此无法将 \(\beta\)\(\left(\beta+\sigma_{xe}\right)\) 中分离出来。这正是我们在本课程前面提到过的遗漏变量偏差。我们无法通过可观测的数据 \(\left(y_{i}, x_{i}\right)\) 求出我们感兴趣的参数 \(\beta_0\)。 在特殊情况下,我们假设 \(\sigma_{xe}=0\),此时内生性消失,\(\beta\) 可以被识别。

评注 11.1

到目前为止,线性投影模型是本课程中用来支持OLS的最通用模型。 OLS对于线性投影系数来说是相合的。根据线性投影模型的定义, \(\mathbb{E}\left[x_{i}e_{i}\right]=0\),因此在线性投影模型中,没有内生性的生存空间, 。换句话说,如果我们在谈论内生性,我们一定不是在使用线性投影模型。 我们感兴趣的系数是结构参数的系数,而不是线性投影系数。

在计量经济学中,我们经常对具有经济学意义的模型感兴趣。实证研究中的普遍做法是假设 观察到的数据是从一个简约模型中生成的,然后下一步是去估计模型中的未知参数。 由于 很多时候有能够同时影响 \(y_i\) 和已有的 \(x_i\) 的变量未被包含在回归变量中,此时内生性成为一个重要问题。

为了解决内生性,我们寻求可以保证模型能识别的额外变量或数据结构。最常用的方法是: (i) 固定效应模型 (ii) 工具变量:

  • 固定效应模型需要为每个个体 \(i\) 收集多个观察值,通常是跨时间的。此外, 内生性的来源是不变于时间的,并以如下形式另外进入模型:

    \[ y_{it}=x_{it}'\beta+u_{it}, \]

    其中 \(u_{it}=\alpha_{i}+\epsilon_{it}\) 是复合误差。如果数据沿时间维度搜集, 那么面板数据方法将会把 \(\left(y_{i},x_{i}\right)\) 扩展到 \(\left(y_{it},x_{it}\right)_{i=1}^{T}\)

  • 工具变量方法将 \(\left(y_{i},x_{i}\right)\) 扩展到 \(\left(y_{i},x_{i},z_{i}\right)\), 其中额外的随机变量 \(z_{i}\) 被称为工具变量。我们假设 \(z_{i}\) 与误差 \(e_{i}\) 正交。因此,它为模型添加了额外的变量 \(z_{i}\)

面板数据法或工具变量法都需要除 \(\left(y_{i},x_{i}\right)\) 以外的额外信息。 没有这些额外的数据,就没有办法解决识别不足的问题。正如线性投影模型可以用于存在合适矩的 \(\left(y_{i},x_{i}\right)\) 的任何联合分布一样,从纯统计学角度来看一个线性工具变量(Instrument Variable)模型仅机械地取决于 \(\left(y_{i},x_{i},z_{i}\right)\) 的选择,而无需参考任何经济学知识。

11.2. 工具变量#

可靠的工具变量有两个条件:正交性和相关性。正交性需要正确设定模型。如果违反了相关性,即工具变量与内生变量不相关,则可观察数据可以由多个参数生成。那么按照计量经济学的定义,模型识别失败。

结构方程是经济学中的重要模型。考虑如下的线性结构模型:

(11.2)#\[ y_{i}=x_{1i}'\beta_{1}+z_{1i}'\beta_{2}+\epsilon_{i}, \]

其中 \(x_{1i}\)\(k_{1}\)维的内生解释变量,\(z_{1i}\)\(k_{2}\)维 包含了截距的外生解释变量。另外,还有 \(z_{2i}\),不在模型内的 \(k_{3}\)维外生变量。 令 \(K=k_{1}+k_{2}\)\(L=k_{2}+k_{3}\)。记 \(x_{i}=\left(x_{1i}',z_{1i}'\right)'\)\(K\)维解释变量,\(z_{i}=\left(z_{1i}',z_{2i}'\right)\)\(L\)维 外生向量。

我们称这个外生变量为 工具变量 (Instrumental Variable, IV)。令 \(\beta=\left(\beta_{1}',\beta_{2}'\right)'\) 为我们感兴趣的 \(K\)维的参数。我们可以将(11.2)重写为

(11.3)#\[ y_{i}=x_{i}'\beta+\epsilon_{i} \]

我们就得到了一个工具向量 \(z_{i}\)

在估计前,我们必须检查结构计量经济模型是否能识别。依据 (11.3),识别需要真值 \(\beta_{0}\) 是参数空间上满足矩条件

(11.4)#\[ \mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\beta\right)\right]=0_{L}. \]

的唯一值。秩条件是识别的充分必要条件。

假设 11.1 (秩条件)

\(\mathrm{rank}\left(\mathbb{E}\left[z_{i}x_{i}'\right]\right)=K\).

注意 \(\mathbb{E}\left[x_{i}'z_{i}\right]\) 是一个 \(K\times L\) 的矩阵。 秩条件意味着阶数 \(L\geq K\), 即工具变量的数量必须不少于内生变量。

定理 11.1

当且仅当秩条件成立,(11.4)中的参数才可以识别。

Proof. (充分性) 对于任何 \(\tilde{\beta}\neq\beta_{0}\)\(\tilde{\beta}\)

\[\begin{split} \begin{aligned} \mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\tilde{\beta}\right)\right] & =\mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\beta_{0}\right)\right]+\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right)\\ & =0_{L}+\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right).\end{aligned} \end{split}\]

由于 \(\mathrm{rank}\left(\mathbb{E}\left[z_{i}x_{i}'\right]\right)=K\),我们可以得出 当且仅当 \(\beta_{0}-\tilde{\beta}=0_{K}\)时, \(\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right)=0_{L}\) ,而这违反了假设 \(\tilde{\beta}\neq\beta_{0}\)。因此 \(\beta_{0}\) 是满足(11.4)的唯一值。

(必要性证明留作练习。提示:通过逆否命题(Contrapositivity)——如果秩条件不成立,则模型无法被识别。 我们就可以通过举例轻松地证明这个定理。)

11.3. 内生性的来源#

由于计量经济学家主要面对非实验数据,内生性问题就非常重要。下面我们来看几个例子。

例子 11.4 (动态面板模型)

我们知道一阶差分(first-difference, FD)估计量对于(静态)面板数据模型来说是相合的。但在动态面板模型

(11.5)#\[ y_{it}=\beta_{1}+\beta_{2}y_{i,t-1}+\beta_{3}x_{it}+\alpha_{i}+\epsilon_{it},\label{eq:dymPanel} \]

中,一阶差分估计量会存在一些问题: 即使我们假设

(11.6)#\[ \mathbb{E}\left[\epsilon_{is}|\alpha_{i},x_{i1},\ldots,x_{iT},y_{i,t-1},y_{i,t-2},\ldots,y_{i0}\right]=0,\ \ \forall s\geq t \]

(11.5)中的 \(t\) 期和 \(t-1\) 期进行差分,我们有:

(11.7)#\[ \left(y_{it}-y_{i,t-1}\right)=\beta_{2}\left(y_{it-1}-y_{i,t-2}\right)+\beta_{3}\left(x_{it}-x_{i,t-1}\right)+\left(\epsilon_{it}-\epsilon_{i,t-1}\right). \]

根据(11.6)\(\mathbb{E}\left[\left(x_{it}-x_{i,t-1}\right)\left(\epsilon_{it}-\epsilon_{i,t-1}\right)\right]=0\),但

\[ \mathbb{E}\left[\left(y_{i,t-1}-y_{i,t-2}\right)\left(\epsilon_{it}-\epsilon_{i,t-1}\right)\right]=-\mathbb{E}\left[y_{i,t-1}\epsilon_{i,t-1}\right]=-\mathbb{E}\left[\epsilon_{i,t-1}^{2}\right]\neq0. \]

因此在线性回归模型(11.7)中,系数 \(\beta_{2}\)\(\beta_{3}\) 不能被识别。

评注 11.2

上述例子的工具变量很容易找到。注意到依据假设(11.6),可以通过(11.5)得到

\[\begin{split} \begin{aligned} & \mathbb{E}\left[\epsilon_{i,t}-\epsilon_{i,t-1}|\alpha_{i},x_{i1},\ldots,x_{iT},\epsilon_{i,t-2},\epsilon_{i,t-3},\ldots,\epsilon_{i1},y_{i0}\right]\\ & = \mathbb{E}\left[\epsilon_{i,t}-\epsilon_{i,t-1}|\alpha_{i},x_{i1},\ldots,x_{iT},y_{i,t-2},y_{i,t-3},\ldots,y_{i0}\right]\\ & = 0 \end{aligned} \end{split}\]

便能以

\[ \mathbb{E}\left[\left(\epsilon_{i,t}-\epsilon_{i,t-1}\right)f\left(\epsilon_{i,t-2},\epsilon_{i,t-3},\ldots,\epsilon_{i1}\right)\right]=0. \]

的形式给出正交条件。换言之, \(y_{i,t-2},y_{i,t-3},\ldots,y_{i1}\) 的任何函数都正交于误差项 \(\left(\epsilon{}_{i,t-1}-\epsilon_{i,t-2}\right)\)。 这里模型外的工具变量是由模型本身自然生成的。

内生性另一个经典原因是测量误差。

例子 11.5 (经典测量误差)

当解释变量不可直接观察,而用有误差的测量值代替时,也会出现内生性问题。假设真实的线性模型是:

(11.8)#\[ y_{i}=\beta_{1}+\beta_{2}x_{i}^{*}+u_{i} \]

其中 \(\mathbb{E}\left[u_{i}|x_{i}^{*}\right]=0\) 。我们无法观察 \(x_{i}^{*}\) ,但我们能观察到 \(x_{i}^{*}\) 的测量值 \(x_{i}\), 它们之间的关系是

\[ x_{i}=x_{i}^{*}+v_{i} \]

其中 \(\mathbb{E}\left[v_{i}|x_{i}^{*},u_{i}\right]=0\)。这种公式被称为经典测量误差 。 替换(11.8)中的不可观察的 \(x_{i}^{*}\) 得到

\[ y_{i}=\beta_{1}+\beta_{2}\left(x_{i}-v_{i}\right)+u_{i}=\beta_{1}+\beta_{2}x_{i}+e_{i}\label{eq:measurement_error2} \]

其中 \(e_{i}=u_{i}-\beta_{2}v_{i}\)。相关性:

(11.9)#\[ \mathbb{E}\left[x_{i}e_{i}\right]=\mathbb{E}\left[\left(x_{i}^{*}+v_{i}\right)\left(u_{i}-\beta_{2}v_{i}\right)\right]=-\beta_{2}\mathbb{E}\left[v_{i}^{2}\right]\neq0. \]

OLS(11.9)不能得到相合估计量。

评注 11.3

我们也可以用线性投影系数的表达式来理解经典测量误差问题。我们知道在 (11.8)\(\beta_{2}^{\mathrm{infeasible}}=\mathrm{cov}\left[x_{i}^{*},y_{i}\right]/\mathrm{var}\left[x_{i}^{*}\right].\) 与之相对,当我们用可观察的 \(x_{i}\) 回归 \(y_{i}\) 时,得到的线性投影系数为:

\[ \beta_{2}^{\mathrm{feasible}}=\frac{\mathrm{cov}\left[x_{i},y_{i}\right]}{\mathrm{var}\left[x_{i}\right]}=\frac{\mathrm{cov}\left[x_{i}^{*}+v_{i},y_{i}\right]}{\mathrm{var}\left[x_{i}^{*}+v_{i}\right]}=\frac{\mathrm{cov}\left[x_{i}^{*},y_{i}\right]}{\mathrm{var}\left[x_{i}^{*}\right]+\mathrm{var}\left[v_{i}\right]}. \]

显然 \(|\beta_{2}^{\mathrm{feasible}}|\leq|\beta_{2}^{\mathrm{infeasible}}|\), 而且仅当 \(\mathrm{var}\left[v_{i}\right]=0\) (无测量误差)时取等号。这是由于测量误差引起的 衰减偏差(attenuation bias)。

接下来,我们介绍两个方程组的例子,一个来自微观经济学,另一个来自宏观经济学。

例子 11.6 (供给与需求)

\(p_{i}\)\(q_{i}\) 为第 \(i\) 个市场上某个商品的对数价格和对数数量,并且它们在市场上是独立同分布的。 我们感兴趣的需求曲线为

(11.10)#\[ p_{i}=\alpha_{d}-\beta_{d}q_{i}+e_{di} \]

其中 \(\beta_{d}\geq0\) ;供给曲线为

(11.11)#\[ p_{i}=\alpha_{s}+\beta_{s}q_{i}+e_{si \]

其中 \(\beta_{s}\geq0\)。 我们使用一个简单的线性形式(linear specification),使得系数 \(\beta_{d}\) 可以被解释为需求弹性,而 \(\beta_{s}\) 可以被解释为供给弹性。 本科微观经济学课程教授的是确定性形式,但在此我们添加了误差项来处理数据。 我们可以通过用 \(q_{i}\)\(p_{i}\) 回归来得到弹性吗?

这两个方程可以被写成矩阵形式:

(11.12)#\[\begin{split} \begin{pmatrix}1 & \beta_{d}\\ 1 & -\beta_{s} \end{pmatrix}\begin{pmatrix}p_{i}\\ q_{i} \end{pmatrix}=\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix} \end{split}\]

微观经济学中称 \(\left(p_{i},q_{i}\right)\) 为内生变量,称 \(\left(e_{di},e_{si}\right)\) 为外生变量。 (11.12) 是一个结构方程,因为它是由经济理论驱动的, 系数具有经济学含义。如果我们排除 \(\beta_{d}=\beta_{s}=0\), 我们可以解出

(11.13)#\[\begin{split} \begin{aligned} \begin{pmatrix}p_{i}\\ q_{i} \end{pmatrix} & =\begin{pmatrix}1 & \beta_{d}\\ 1 & -\beta_{s} \end{pmatrix}^{-1}\left[\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix}\right]\nonumber \\ & =\frac{1}{\beta_{s}+\beta_{d}}\begin{pmatrix}\beta_{s} & \beta_{d}\\ 1 & -1 \end{pmatrix}\left[\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix}\right].\label{eq:reduced}\end{aligned} \end{split}\]

这个方程(11.13) 被称为 简化形式 ——内生变量被表示为参数和外生变量的显函数。 特别地,

\[ q_{i}=\left(\alpha_{d}+e_{di}-\alpha_{s}-e_{si}\right)/\left(\beta_{s}+\beta_{d}\right) \]

因此对数价格与 \(e_{si}\)\(e_{di}\) 都相关。由于在计量经济学中, \(q_{i}\)(11.10)(11.11)中是内生的,因此需求弹性和供给弹性都不能用 \(\left(p_{i},q_{i}\right)\) 识别。在(11.13)中,

\[ p_{i}=\left(\beta_{s}\alpha_{d}+\beta_{d}\alpha_{s}+\beta_{s}e_{di}+\beta_{d}e_{si}\right)/\left(\beta_{s}+\beta_{d}\right) \]

\(p_{i}\)\(q_{i}\) 上的线性投影系数为

\[ \frac{\mathrm{cov}\left[p_{i},q_{i}\right]}{\mathrm{var}\left[q_{i}\right]}=\frac{\beta_{s}\sigma_{d}^{2}-\beta_{d}\sigma_{s}^{2}+\left(\beta_{d}-\beta_{s}\right)\sigma_{sd}}{\beta_{d}^{2}\sigma_{d}^{2}+\beta_{d}\sigma_{s}^{2}+2\beta_{d}\beta_{s}\sigma_{sd}} \]

其中 \(\sigma_{d}^{2}=\mathrm{var}\left[e_{di}\right]\), \(\sigma_{s}^{2}=\mathrm{var}\left[e_{si}\right]\)\(\sigma_{sd}=\mathrm{cov}\left[e_{di},e_{si}\right]\)

这是供需模型的经典例子。结构参数无法被直接识别,因为观察到的 \(\left(p_{i},q_{i}\right)\) 是均衡(equilibrium)——需求曲线和供给曲线的交点的结果。 为了识别需求曲线,我们需要一个仅移动供给曲线的工具变量;反之亦然。

例子 11.7 (凯恩斯型方程)

这里借用了 Hayashi (2000, p.193) 的模型,但其最早可以追溯到[Haavelmo, 1943]。 计量经济学家想求出凯恩斯型方程中的 \(\beta_{2}\),即边际消费倾向(marginal propensity of consumption):

(11.14)#\[ C_{i}=\beta_{1}+\beta_{2}Y_{i}+u_{i} \]

其中 \(C_{i}\) 是家庭消费,\(Y_{i}\) 是GNP,而 \(u_{i}\) 是不可观察的误差。 但是,\(Y_{i}\)\(C_{i}\) 可以通过一个没有误差的会计等式联系起来

\[ Y_{i}=C_{i}+I_{i} \]

其中 \(I_{i}\) 是投资。 因为投资是预先确定的,我们可以假设 \(\mathbb{E}\left[u_{i}|I_{i}\right]=0\)。 在这个例子中,\(\left(Y_{i}C_{i}\right)\) 是内生的,而\(\left(I_{i},u_{i}\right)\) 是外生的。将两个方程以结构形式放在一起:

\[\begin{split} \begin{pmatrix}1 & -\beta_{2}\\ -1 & 1 \end{pmatrix}\begin{pmatrix}C_{i}\\ Y_{i} \end{pmatrix}=\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}. \end{split}\]

相对应的简化形式是

\[\begin{split} \begin{aligned} \begin{pmatrix}C_{i}\\ Y_{i} \end{pmatrix} & =\begin{pmatrix}1 & -\beta_{2}\\ -1 & 1 \end{pmatrix}^{-1}\left[\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}\right]\\ & =\frac{1}{1-\beta_{2}}\begin{pmatrix}1 & \beta_{2}\\ 1 & 1 \end{pmatrix}\left[\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}\right]\\ & =\frac{1}{1-\beta_{2}}\begin{pmatrix}\beta_{1}+u_{i}+\beta_{2}I_{i}\\ \beta_{1}+u_{i}+I_{i} \end{pmatrix}.\end{aligned} \end{split}\]

OLS估计(11.14)将不相合,因为在简化形式中, \(Y_{i}=\frac{1}{1-\beta_{2}}\left(\beta_{1}+u_{i}+I_{i}\right)\) 意味着 \(\mathbb{E}\left[Y_{i}u_{i}\right]=\mathbb{E}\left[u_{i}^{2}\right]/\left(1-\beta_{2}\right)\neq0\)

11.4. 总结#

尽管我们经常要处理的是有潜在内生变量的单方程模型,但背后的结构模型可能涉及多个方程。 联立方程模型是一种经典的计量经济学建模方法,而且至今在结构经济研究中它仍然有着广泛应用。 当我们的经济模型是“结构性”时,我们要牢记因果机制。此时我们不再像在第2章 那样通过控制组和对照组来确定因果效应,而是从经济结构的视角来看待因果关系。

历史趣闻

工具变量最初在[Wright, 1928]中出现,被用于识别内生变量的系数。这被认为是与Philip的儿子Sewall Wright合作产生的想法。 供需分析需要感谢[Working, 1927]的贡献,测量误差研究则来源于[Fricsh, 1934]

拓展阅读

因果关系是计量经济学的圣杯。[Pearl and Mackenzie, 2018] 是一本颇具哲理的畅销书籍,阅读体验良好。 [Chen et al., 2011] 综述了现代的非线性误差测量模型。