11. 内生性#

在微观经济分析中，外生变量指的是那些在我们的经济体系之外决定的因素，而内生变量则是在经济体系之内被决定的因素。

例子 11.1

以下是我们碰到过多次的微观经济学习题。如果一个人的效用函数是 \(u\left(q_{1},q_{2}\right)\)，其中 \(q_{1}\) 和 \(q_{2}\) 是两种商品的数量。他的预算约束是 \(p_{1}q_{1}+p_{2}q_{2}\leq C\)，其中 \(p_{1}\) 和 \(p_{2}\) 分别是两种商品的价格。那么他会购买的最优数量 \(q_{1}^{*}\) 和 \(q_{2}^{*}\) 是多少？在这个问题中，效用函数 \(u\left(\cdot,\cdot\right)\)，物品价格 \(p_{1}\) 和 \(p_{2}\)，和预算 \(C\) 是外生变量。而最优数量 \(q_{1}^{*}\) 和 \(q_{2}^{*}\) 是内生变量。

微观经济学中的概念内生性和外生性被借用到多方程计量模型。在单方程回归模型中，

(11.1)#\[ y_{i}=x_{i}'\beta+e_{i} \]

只是方程系统中的一部分。在单方程模型中，我们采取一种简单机械的分类方法：如果 \(\mathrm{cov}\left(x_{ik},e_{i}\right)\neq0\)，那么我们就称 \(x_{ik}\) 是内生的 ，或者说是一个内生性变量；反之 \(x_{ik}\) 就是一个外生性变量。

线性回归的实证分析常常遇到内生性问题的挑战。这些问题常见于经济研讨会和审稿报告。为了定量经济研究中的实证分析策略能够站得住脚，了解潜在内生性的来源和全面地讨论如何解决内生性非常重要。

11.1. 识别#

内生性通常意味着仅用 \(\left(y_{i},x_{i}\right)\) 难以识别我们感兴趣的参数。内生性的鉴别对于理解实证经济研究是至关重要的。如果模型中的参数与被观测变量的分布之间的映射是一一对应的，那我们就认为这个参数是被识别的。反之我们就称该模型的参数识别不足。这是一个抽象的定义，我们可以在线性回归的背景下来讨论它。

例子 11.2

线性投影模型隐含了矩方程：

\[ \mathbb{E}\left[x_{i}x_{i}'\right]\beta=\mathbb{E}\left[x_{i}y_{i}\right]. \]

如果 \(E\left[x_{i}x_{i}'\right]\) 满秩，那么 \(\beta=\left(\mathbb{E}\left[x_{i}x_{i}'\right]\right)^{-1}\mathbb{E}\left[x_{i}y_{i}\right]\) 是总体矩的一个函数，并且它是可识别的。与之相对，如果一些 \(x_{k}\) 是完全共线，意味着 \(\mathbb{E}\left[x_{i}x_{i}'\right]\) 不满秩，即有多个 \(\beta\) 可以满足该 \(k\) 方程系统。

例子 11.3

假设 \(x_{i}\) 是一个随机的标量，

\[\begin{split} \begin{pmatrix}x_{i}\\ e_{i} \end{pmatrix}\sim N\left(\begin{pmatrix}0\\ 0 \end{pmatrix},\begin{pmatrix}1 & \sigma_{xe}\\ \sigma_{xe} & 1 \end{pmatrix}\right) \end{split}\]

服从联合正态分布，并且因变量 \(y_{i}\) 来源于 (11.1)。联合正态分布的假设意味着条件均值

\[ \mathbb{E}\left[y_{i}|x_{i}\right]=\beta x_{i}+\mathbb{E}\left[e_{i}|x_{i}\right]=\left(\beta+\sigma_{xe}\right)x_{i} \]

与线性投影模型一致，并且 \(\beta+\sigma_{xe}\) 是联合投影模型中的系数。从可观察的随机变量 \(\left(y_{i},x_{i}\right)\) 中，我们只能得到 \(\beta+\sigma_{xe}\)。由于无法观测到 \(e_{i}\)，我们从数据中不能得出 \(\sigma_{xe}\)，因此无法将 \(\beta\) 从 \(\left(\beta+\sigma_{xe}\right)\) 中分离出来。这正是我们在本课程前面提到过的遗漏变量偏差。我们无法通过可观测的数据 \(\left(y_{i}, x_{i}\right)\) 求出我们感兴趣的参数 \(\beta_0\)。在特殊情况下，我们假设 \(\sigma_{xe}=0\)，此时内生性消失，\(\beta\) 可以被识别。

评注 11.1

到目前为止，线性投影模型是本课程中用来支持OLS的最通用模型。 OLS对于线性投影系数来说是相合的。根据线性投影模型的定义， \(\mathbb{E}\left[x_{i}e_{i}\right]=0\)，因此在线性投影模型中，没有内生性的生存空间，。换句话说，如果我们在谈论内生性，我们一定不是在使用线性投影模型。我们感兴趣的系数是结构参数的系数，而不是线性投影系数。

在计量经济学中，我们经常对具有经济学意义的模型感兴趣。实证研究中的普遍做法是假设观察到的数据是从一个简约模型中生成的，然后下一步是去估计模型中的未知参数。由于很多时候有能够同时影响 \(y_i\) 和已有的 \(x_i\) 的变量未被包含在回归变量中，此时内生性成为一个重要问题。

为了解决内生性，我们寻求可以保证模型能识别的额外变量或数据结构。最常用的方法是： (i) 固定效应模型 (ii) 工具变量：

固定效应模型需要为每个个体 \(i\) 收集多个观察值，通常是跨时间的。此外，内生性的来源是不变于时间的，并以如下形式另外进入模型：

\[ y_{it}=x_{it}'\beta+u_{it}, \]

其中 \(u_{it}=\alpha_{i}+\epsilon_{it}\) 是复合误差。如果数据沿时间维度搜集，那么面板数据方法将会把 \(\left(y_{i},x_{i}\right)\) 扩展到 \(\left(y_{it},x_{it}\right)_{i=1}^{T}\)。
工具变量方法将 \(\left(y_{i},x_{i}\right)\) 扩展到 \(\left(y_{i},x_{i},z_{i}\right)\)，其中额外的随机变量 \(z_{i}\) 被称为工具变量。我们假设 \(z_{i}\) 与误差 \(e_{i}\) 正交。因此，它为模型添加了额外的变量 \(z_{i}\)。

面板数据法或工具变量法都需要除 \(\left(y_{i},x_{i}\right)\) 以外的额外信息。没有这些额外的数据，就没有办法解决识别不足的问题。正如线性投影模型可以用于存在合适矩的 \(\left(y_{i},x_{i}\right)\) 的任何联合分布一样，从纯统计学角度来看一个线性工具变量(Instrument Variable)模型仅机械地取决于 \(\left(y_{i},x_{i},z_{i}\right)\) 的选择，而无需参考任何经济学知识。

11.2. 工具变量#

可靠的工具变量有两个条件：正交性和相关性。正交性需要正确设定模型。如果违反了相关性，即工具变量与内生变量不相关，则可观察数据可以由多个参数生成。那么按照计量经济学的定义，模型识别失败。

结构方程是经济学中的重要模型。考虑如下的线性结构模型：

(11.2)#\[ y_{i}=x_{1i}'\beta_{1}+z_{1i}'\beta_{2}+\epsilon_{i}, \]

其中 \(x_{1i}\) 是 \(k_{1}\)维的内生解释变量，\(z_{1i}\) 是 \(k_{2}\)维包含了截距的外生解释变量。另外，还有 \(z_{2i}\)，不在模型内的 \(k_{3}\)维外生变量。令 \(K=k_{1}+k_{2}\)，\(L=k_{2}+k_{3}\)。记 \(x_{i}=\left(x_{1i}',z_{1i}'\right)'\) 为 \(K\)维解释变量，\(z_{i}=\left(z_{1i}',z_{2i}'\right)\) 为 \(L\)维外生向量。

我们称这个外生变量为 工具变量 (Instrumental Variable, IV)。令 \(\beta=\left(\beta_{1}',\beta_{2}'\right)'\) 为我们感兴趣的 \(K\)维的参数。我们可以将(11.2)重写为

(11.3)#\[ y_{i}=x_{i}'\beta+\epsilon_{i} \]

我们就得到了一个工具向量 \(z_{i}\)。

在估计前，我们必须检查结构计量经济模型是否能识别。依据 (11.3)，识别需要真值 \(\beta_{0}\) 是参数空间上满足矩条件

(11.4)#\[ \mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\beta\right)\right]=0_{L}. \]

的唯一值。秩条件是识别的充分必要条件。

假设 11.1 (秩条件)

\(\mathrm{rank}\left(\mathbb{E}\left[z_{i}x_{i}'\right]\right)=K\).

注意 \(\mathbb{E}\left[x_{i}'z_{i}\right]\) 是一个 \(K\times L\) 的矩阵。秩条件意味着阶数 \(L\geq K\)，即工具变量的数量必须不少于内生变量。

定理 11.1

当且仅当秩条件成立，(11.4)中的参数才可以识别。

Proof. (充分性) 对于任何 \(\tilde{\beta}\neq\beta_{0}\) 的 \(\tilde{\beta}\)，

\[\begin{split} \begin{aligned} \mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\tilde{\beta}\right)\right] & =\mathbb{E}\left[z_{i}\left(y_{i}-x_{i}'\beta_{0}\right)\right]+\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right)\\ & =0_{L}+\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right).\end{aligned} \end{split}\]

由于 \(\mathrm{rank}\left(\mathbb{E}\left[z_{i}x_{i}'\right]\right)=K\)，我们可以得出当且仅当 \(\beta_{0}-\tilde{\beta}=0_{K}\)时， \(\mathbb{E}\left[z_{i}x_{i}'\right]\left(\beta_{0}-\tilde{\beta}\right)=0_{L}\) ，而这违反了假设 \(\tilde{\beta}\neq\beta_{0}\)。因此 \(\beta_{0}\) 是满足(11.4)的唯一值。

(必要性证明留作练习。提示：通过逆否命题(Contrapositivity)——如果秩条件不成立，则模型无法被识别。我们就可以通过举例轻松地证明这个定理。)

11.3. 内生性的来源#

由于计量经济学家主要面对非实验数据，内生性问题就非常重要。下面我们来看几个例子。

例子 11.4 (动态面板模型)

我们知道一阶差分(first-difference, FD)估计量对于(静态)面板数据模型来说是相合的。但在动态面板模型

(11.5)#\[ y_{it}=\beta_{1}+\beta_{2}y_{i,t-1}+\beta_{3}x_{it}+\alpha_{i}+\epsilon_{it},\label{eq:dymPanel} \]

中，一阶差分估计量会存在一些问题：即使我们假设

(11.6)#\[ \mathbb{E}\left[\epsilon_{is}|\alpha_{i},x_{i1},\ldots,x_{iT},y_{i,t-1},y_{i,t-2},\ldots,y_{i0}\right]=0,\ \ \forall s\geq t \]

对(11.5)中的 \(t\) 期和 \(t-1\) 期进行差分，我们有:

(11.7)#\[ \left(y_{it}-y_{i,t-1}\right)=\beta_{2}\left(y_{it-1}-y_{i,t-2}\right)+\beta_{3}\left(x_{it}-x_{i,t-1}\right)+\left(\epsilon_{it}-\epsilon_{i,t-1}\right). \]

根据(11.6)，\(\mathbb{E}\left[\left(x_{it}-x_{i,t-1}\right)\left(\epsilon_{it}-\epsilon_{i,t-1}\right)\right]=0\)，但

\[ \mathbb{E}\left[\left(y_{i,t-1}-y_{i,t-2}\right)\left(\epsilon_{it}-\epsilon_{i,t-1}\right)\right]=-\mathbb{E}\left[y_{i,t-1}\epsilon_{i,t-1}\right]=-\mathbb{E}\left[\epsilon_{i,t-1}^{2}\right]\neq0. \]

因此在线性回归模型(11.7)中，系数 \(\beta_{2}\) 和 \(\beta_{3}\) 不能被识别。

评注 11.2

上述例子的工具变量很容易找到。注意到依据假设(11.6)，可以通过(11.5)得到

\[\begin{split} \begin{aligned} & \mathbb{E}\left[\epsilon_{i,t}-\epsilon_{i,t-1}|\alpha_{i},x_{i1},\ldots,x_{iT},\epsilon_{i,t-2},\epsilon_{i,t-3},\ldots,\epsilon_{i1},y_{i0}\right]\\ & = \mathbb{E}\left[\epsilon_{i,t}-\epsilon_{i,t-1}|\alpha_{i},x_{i1},\ldots,x_{iT},y_{i,t-2},y_{i,t-3},\ldots,y_{i0}\right]\\ & = 0 \end{aligned} \end{split}\]

便能以

\[ \mathbb{E}\left[\left(\epsilon_{i,t}-\epsilon_{i,t-1}\right)f\left(\epsilon_{i,t-2},\epsilon_{i,t-3},\ldots,\epsilon_{i1}\right)\right]=0. \]

的形式给出正交条件。换言之， \(y_{i,t-2},y_{i,t-3},\ldots,y_{i1}\) 的任何函数都正交于误差项 \(\left(\epsilon{}_{i,t-1}-\epsilon_{i,t-2}\right)\)。这里模型外的工具变量是由模型本身自然生成的。

内生性另一个经典原因是测量误差。

例子 11.5 (经典测量误差)

当解释变量不可直接观察，而用有误差的测量值代替时，也会出现内生性问题。假设真实的线性模型是:

(11.8)#\[ y_{i}=\beta_{1}+\beta_{2}x_{i}^{*}+u_{i} \]

其中 \(\mathbb{E}\left[u_{i}|x_{i}^{*}\right]=0\) 。我们无法观察 \(x_{i}^{*}\) ，但我们能观察到 \(x_{i}^{*}\) 的测量值 \(x_{i}\)，它们之间的关系是

\[ x_{i}=x_{i}^{*}+v_{i} \]

其中 \(\mathbb{E}\left[v_{i}|x_{i}^{*},u_{i}\right]=0\)。这种公式被称为经典测量误差 。替换(11.8)中的不可观察的 \(x_{i}^{*}\) 得到

\[ y_{i}=\beta_{1}+\beta_{2}\left(x_{i}-v_{i}\right)+u_{i}=\beta_{1}+\beta_{2}x_{i}+e_{i}\label{eq:measurement_error2} \]

其中 \(e_{i}=u_{i}-\beta_{2}v_{i}\)。相关性:

(11.9)#\[ \mathbb{E}\left[x_{i}e_{i}\right]=\mathbb{E}\left[\left(x_{i}^{*}+v_{i}\right)\left(u_{i}-\beta_{2}v_{i}\right)\right]=-\beta_{2}\mathbb{E}\left[v_{i}^{2}\right]\neq0. \]

OLS(11.9)不能得到相合估计量。

评注 11.3

我们也可以用线性投影系数的表达式来理解经典测量误差问题。我们知道在 (11.8)中 \(\beta_{2}^{\mathrm{infeasible}}=\mathrm{cov}\left[x_{i}^{*},y_{i}\right]/\mathrm{var}\left[x_{i}^{*}\right].\) 与之相对，当我们用可观察的 \(x_{i}\) 回归 \(y_{i}\) 时，得到的线性投影系数为:

\[ \beta_{2}^{\mathrm{feasible}}=\frac{\mathrm{cov}\left[x_{i},y_{i}\right]}{\mathrm{var}\left[x_{i}\right]}=\frac{\mathrm{cov}\left[x_{i}^{*}+v_{i},y_{i}\right]}{\mathrm{var}\left[x_{i}^{*}+v_{i}\right]}=\frac{\mathrm{cov}\left[x_{i}^{*},y_{i}\right]}{\mathrm{var}\left[x_{i}^{*}\right]+\mathrm{var}\left[v_{i}\right]}. \]

显然 \(|\beta_{2}^{\mathrm{feasible}}|\leq|\beta_{2}^{\mathrm{infeasible}}|\)，而且仅当 \(\mathrm{var}\left[v_{i}\right]=0\) (无测量误差)时取等号。这是由于测量误差引起的 衰减偏差(attenuation bias)。

接下来，我们介绍两个方程组的例子，一个来自微观经济学，另一个来自宏观经济学。

例子 11.6 (供给与需求)

设 \(p_{i}\) 和 \(q_{i}\) 为第 \(i\) 个市场上某个商品的对数价格和对数数量，并且它们在市场上是独立同分布的。我们感兴趣的需求曲线为

(11.10)#\[ p_{i}=\alpha_{d}-\beta_{d}q_{i}+e_{di} \]

其中 \(\beta_{d}\geq0\) ；供给曲线为

(11.11)#\[ p_{i}=\alpha_{s}+\beta_{s}q_{i}+e_{si \]

其中 \(\beta_{s}\geq0\)。我们使用一个简单的线性形式(linear specification)，使得系数 \(\beta_{d}\) 可以被解释为需求弹性，而 \(\beta_{s}\) 可以被解释为供给弹性。本科微观经济学课程教授的是确定性形式，但在此我们添加了误差项来处理数据。我们可以通过用 \(q_{i}\) 对 \(p_{i}\) 回归来得到弹性吗？

这两个方程可以被写成矩阵形式：

(11.12)#\[\begin{split} \begin{pmatrix}1 & \beta_{d}\\ 1 & -\beta_{s} \end{pmatrix}\begin{pmatrix}p_{i}\\ q_{i} \end{pmatrix}=\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix} \end{split}\]

微观经济学中称 \(\left(p_{i},q_{i}\right)\) 为内生变量，称 \(\left(e_{di},e_{si}\right)\) 为外生变量。 (11.12) 是一个结构方程，因为它是由经济理论驱动的，系数具有经济学含义。如果我们排除 \(\beta_{d}=\beta_{s}=0\)，我们可以解出

(11.13)#\[\begin{split} \begin{aligned} \begin{pmatrix}p_{i}\\ q_{i} \end{pmatrix} & =\begin{pmatrix}1 & \beta_{d}\\ 1 & -\beta_{s} \end{pmatrix}^{-1}\left[\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix}\right]\nonumber \\ & =\frac{1}{\beta_{s}+\beta_{d}}\begin{pmatrix}\beta_{s} & \beta_{d}\\ 1 & -1 \end{pmatrix}\left[\begin{pmatrix}\alpha_{d}\\ \alpha_{s} \end{pmatrix}+\begin{pmatrix}e_{di}\\ e_{si} \end{pmatrix}\right].\label{eq:reduced}\end{aligned} \end{split}\]

这个方程(11.13) 被称为 简化形式 ——内生变量被表示为参数和外生变量的显函数。特别地，

\[ q_{i}=\left(\alpha_{d}+e_{di}-\alpha_{s}-e_{si}\right)/\left(\beta_{s}+\beta_{d}\right) \]

因此对数价格与 \(e_{si}\) 和 \(e_{di}\) 都相关。由于在计量经济学中， \(q_{i}\) 在 (11.10)或(11.11)中是内生的，因此需求弹性和供给弹性都不能用 \(\left(p_{i},q_{i}\right)\) 识别。在(11.13)中，

\[ p_{i}=\left(\beta_{s}\alpha_{d}+\beta_{d}\alpha_{s}+\beta_{s}e_{di}+\beta_{d}e_{si}\right)/\left(\beta_{s}+\beta_{d}\right) \]

\(p_{i}\) 在 \(q_{i}\) 上的线性投影系数为

\[ \frac{\mathrm{cov}\left[p_{i},q_{i}\right]}{\mathrm{var}\left[q_{i}\right]}=\frac{\beta_{s}\sigma_{d}^{2}-\beta_{d}\sigma_{s}^{2}+\left(\beta_{d}-\beta_{s}\right)\sigma_{sd}}{\beta_{d}^{2}\sigma_{d}^{2}+\beta_{d}\sigma_{s}^{2}+2\beta_{d}\beta_{s}\sigma_{sd}} \]

其中 \(\sigma_{d}^{2}=\mathrm{var}\left[e_{di}\right]\), \(\sigma_{s}^{2}=\mathrm{var}\left[e_{si}\right]\) 且 \(\sigma_{sd}=\mathrm{cov}\left[e_{di},e_{si}\right]\)。

这是供需模型的经典例子。结构参数无法被直接识别，因为观察到的 \(\left(p_{i},q_{i}\right)\) 是均衡(equilibrium)——需求曲线和供给曲线的交点的结果。为了识别需求曲线，我们需要一个仅移动供给曲线的工具变量；反之亦然。

例子 11.7 (凯恩斯型方程)

这里借用了 Hayashi (2000, p.193) 的模型，但其最早可以追溯到[Haavelmo, 1943]。计量经济学家想求出凯恩斯型方程中的 \(\beta_{2}\)，即边际消费倾向(marginal propensity of consumption)：

(11.14)#\[ C_{i}=\beta_{1}+\beta_{2}Y_{i}+u_{i} \]

其中 \(C_{i}\) 是家庭消费，\(Y_{i}\) 是GNP，而 \(u_{i}\) 是不可观察的误差。但是，\(Y_{i}\) 和 \(C_{i}\) 可以通过一个没有误差的会计等式联系起来

\[ Y_{i}=C_{i}+I_{i} \]

其中 \(I_{i}\) 是投资。因为投资是预先确定的，我们可以假设 \(\mathbb{E}\left[u_{i}|I_{i}\right]=0\)。在这个例子中，\(\left(Y_{i}C_{i}\right)\) 是内生的，而\(\left(I_{i},u_{i}\right)\) 是外生的。将两个方程以结构形式放在一起：

\[\begin{split} \begin{pmatrix}1 & -\beta_{2}\\ -1 & 1 \end{pmatrix}\begin{pmatrix}C_{i}\\ Y_{i} \end{pmatrix}=\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}. \end{split}\]

相对应的简化形式是

\[\begin{split} \begin{aligned} \begin{pmatrix}C_{i}\\ Y_{i} \end{pmatrix} & =\begin{pmatrix}1 & -\beta_{2}\\ -1 & 1 \end{pmatrix}^{-1}\left[\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}\right]\\ & =\frac{1}{1-\beta_{2}}\begin{pmatrix}1 & \beta_{2}\\ 1 & 1 \end{pmatrix}\left[\begin{pmatrix}\beta_{1}\\ 0 \end{pmatrix}+\begin{pmatrix}u_{i}\\ I_{i} \end{pmatrix}\right]\\ & =\frac{1}{1-\beta_{2}}\begin{pmatrix}\beta_{1}+u_{i}+\beta_{2}I_{i}\\ \beta_{1}+u_{i}+I_{i} \end{pmatrix}.\end{aligned} \end{split}\]

OLS估计(11.14)将不相合，因为在简化形式中， \(Y_{i}=\frac{1}{1-\beta_{2}}\left(\beta_{1}+u_{i}+I_{i}\right)\) 意味着 \(\mathbb{E}\left[Y_{i}u_{i}\right]=\mathbb{E}\left[u_{i}^{2}\right]/\left(1-\beta_{2}\right)\neq0\)。

11.4. 总结#

尽管我们经常要处理的是有潜在内生变量的单方程模型，但背后的结构模型可能涉及多个方程。联立方程模型是一种经典的计量经济学建模方法，而且至今在结构经济研究中它仍然有着广泛应用。当我们的经济模型是“结构性”时，我们要牢记因果机制。此时我们不再像在第2章那样通过控制组和对照组来确定因果效应，而是从经济结构的视角来看待因果关系。

历史趣闻

工具变量最初在[Wright, 1928]中出现，被用于识别内生变量的系数。这被认为是与Philip的儿子Sewall Wright合作产生的想法。供需分析需要感谢[Working, 1927]的贡献，测量误差研究则来源于[Fricsh, 1934]。

拓展阅读

因果关系是计量经济学的圣杯。[Pearl and Mackenzie, 2018] 是一本颇具哲理的畅销书籍，阅读体验良好。 [Chen et al., 2011] 综述了现代的非线性误差测量模型。

计量经济学讲义

内生性

Contents