回归、投影和因果关系
Contents
2. 回归、投影和因果关系#
涅槃经(卷三十二)
有王告大臣,汝牵一象来示盲者时,众盲各以手触。大王唤众盲问之:“汝见象类何物?触其牙者言:象形如萝菔根;触其耳者言如萁;触其脚者言如臼;触其脊者言如床;触其腹者言如瓮;触其尾者言如绳。
数学符号
在本讲义中, \(y\) 为一元随机变量, \(x=(x_1,...,x_K)^{\prime}\) 为 \(K\times1\) 的随机向量。另外,在本课程中提到的向量均为列向量,即只有一列的矩阵。
2.1. 条件期望#
条件期望是数据预测理论中一个非常重要的概念。 机器学习是一揽子处理数据的算法,其中包括回归分析。回归是一种监督学习 (supervised leaning)。监督式学习用 \(x\) 的函数 (比如 \(g(x)\) )来预测 \(y\) ,然而除非二者之间是确定性的关系,否则 \(x\) 对 \(y\) 的预测必然存在误差。而预测误差 \(y-g(x)\) 依赖于函数 \(g\) 的选择。我们如何才能从各种各样的可选函数中找到最优的 \(g\) 来帮助我们做预测呢? 由于我们并不关心相应联合分布 \((y,x)\) 的数据生成过程 (data generating process,简记 DGP),我们希望能找到一种通用的方法,无论 \((x,y)\) 随机变量是怎样生成的,我们都可以用它来进行尽量精准的预测。
我们用决策理论(decision theory)来处理这个问题。其关键在于,我们选择什么标准来比较不同 \(g\) 的优劣。这个标准称为损失函数,常记为 \(L(y,g(x))\) 。平方损失 (quadratic loss)
是一种常见的损失函数。由于数据的随机性, 损失函数 \(L(y,g(x))\) 也是随机的。这里的”随机”意味着不确定性, 即使在同一分布下,每次抽样也可能产生不同的结果。为了摆脱这种随机性的影响,我们根据联合分布 \((y,x)\) 对损失函数取数学期望,得到 \(R(y,g(x))=E[L(y,g(x))]\),我们将其称为风险。 与损失函数不同,风险是一个确定性的量。与平方损失函数相对应的风险是 均方误差 (mean square error,简记MSE)
均方误差是最常用的风险测度方法,虽然文献中还有其他可替代的度量,例如平均绝对误差 (mean absolute error,简记MAE) \(E[|y-g(x)|]\) 等。
均方误差之所以好用,是因为它的特定函数形式能帮助我们较为方便地求出解析解。反观其他的风险函数如平均绝对误差,由于其不可微性,会给计算解析解带来困难。在经济学中,效用函数的选择也有着类似的考量。我们通常只选择几种函数形式,如CRRA效用函数,CARA效用函数等,这些函数形式得以广泛使用也是因为它们往往能够较为便捷地求得解析解。
明确了比较的标准, 我们的问题便十分清晰了: 如果我们的目标是最小化均方误差, 那么什么是函数 \(g\) 的最优选择?
条件均值函数 (conditional mean function,即CEF) \(m(x)=E[y|x]=\int yf(y|x)dy\) 可以最小化均方误差。
在证明上述命题之前,我们先讨论条件均值函数的一些性质。定义 \(\varepsilon:=y-m(x)\)。显然,可以对 \(y\) 进行如下分解:
只要条件期望\(E[y|x]\)存在,无论 \((y,x)\) 服从何种分布,该等式都成立。我们将 \(\varepsilon\) 称为 回归误差 (regression error)。 误差项 \(\varepsilon\) 具有以下性质:
\(E[y|x]=E[y-m(x)|x]=E[y|x]-m(x)=0\),
\(E[\varepsilon]=E[E[\varepsilon|x]]=E[0]=0\),
给定任意函数\(h(x)\)有
(2.1)#\[ E[h(x)\varepsilon]=E[E[h(x)\varepsilon|x]]=E[h(x)E[\varepsilon|x]]=0. \]
最后一个性质表明, \(\varepsilon\) 与 \(x\) 的任何函数都不相关。特别地, 当 \(h(x)=x\) 时有 \(E[x\varepsilon]=Cov(x,\varepsilon)\)=0 。
命题2.1的证明 : 我们采用先猜后证 (“guess-and-verify”) 的思路。我们首先猜测CEF是最优解,然后验证它确实是最优解: 对于任意一个函数 \(g\) 验证CEF至少不比\(g\)差。对任给的 \(g(x)\),其均方误差可以分解为三部分:
其中第一项为CEF的MSE, 显然与 \(g(x)\) 无关。在(2.2)中取 \(h(x)=m(x)-g(x)\) ,于是第二项满足
因此第二项也与 \(g(x)\) 无关。又因为第三项非负且在 \(g(x)=m(x)\) 时取得最小值,证毕。
讨论至此,可以发现目前我们的观点与大多数计量经济学教科书有一些区别。传统的计量经济学教科书中大多假设因变量 \(y\) 是由一个未知的函数 \(g(\cdot)\) 和满足 \(E[\varepsilon|x]=0\) 的误差项 \(\varepsilon\) , 通过 \(y=g(x)+\varepsilon\) 的形式生成的。而我们采用了一种与DGP无关的观点: 在观察到 \(y\) 和 \(x\) 的情况下, 我们关心的仅仅是寻找到最优的预测函数 \(g(x)\) , 使得它能够在均方误差标准下对 \(y\) 做出最好的预测。
2.2. 线性投影#
上一节中我们证明了条件均值函数 \(m(x)\) 的均方误差最小, 但 \(m(x)=E[y|x]\) 依赖于 \((y,x)\) 的联合分布, 而在实际中联合分布通常是未知的,条件期望通常是一个比较复杂的函数,不易估计。那么如何简化我们的预测函数呢? 一个自然的想法就是我们将范围缩小为线性函数 \(h(x)=h(x;b)=x^{\prime}b, \ b\in\mathbb{R}^{K}\) ,然后在所有线性函数中寻找均方误差最小的函数。于是我们的问题简化为:
相应的一阶条件为
第一个等号交换了期望符号与求导符号的顺序,第二个等号依据链式法则与期望的线性性质得出。如果 \(E[xx^{\prime}]\) 可逆,当一阶条件等于0时,我们得到相应的解析解为
在这里 \(b\) 表示任一\(K\)维向量, 而 \(\beta\) 为最优解。函数 \(x^{\prime}\beta\) 称为 \(y\) 对 \(x\) 的最优线性投影 (best linear projection*,即BLP),而 \(\beta\) 称为线性投影系数 (linear projection coefficient)。
如果我们重新定义 \(x\) ,线性函数也能够用于反映一些非线性的情况。例如
则 \(\frac{\partial}{\partial x_1}m(x_1,x_2)=\beta_1+2x_1\beta_3\) , 该模型中 \(x_1\) 对 \(y\) 存在非线性的影响。但我们如果将回归变量重设为\((\tilde{x}_1,\tilde{x}_2,\tilde{x}_3)=(x_1,x_2,x^2_1)\) , 那么在相应的参数 \(\beta=(\beta_1,\beta_2,\beta_3)\) 下该模型仍然是线性的。
如果\((y,x)\)服从以下形式的联合正态分布
其中\(\rho\)为相关系数。此时的条件期望是\(x\)的线性函数
即CEF是线性的。
在一般情况下,条件期望函数并非线性的,即 \(m(x)\not=x^{\prime}\beta\) 。但我们依然可以用线性函数 \(x^{\prime}\beta\) 估计 \(m(x)\) 。也就是说,事实上 \(x^{\prime}\beta\) 是在均方误差下对 \(m(x)\) 的最优线性估计
证明如下:
考虑一阶条件 \(\frac{\partial}{\partial b}E\left[(m(x)-x^{\prime}b)^{2}\right]=-2E\left[x(m(x)-x^{\prime}b)\right]=0\) 。移项得到 \(E[x\cdot m(x)]=E[xx^{\prime}]b\) 。若\(E[xx^{\prime}]\)可逆,则有
将线性回归模型重写为如下形式
它也被称为线性投影模型 (linear projection model), 其中 \(e=y-x^{\prime}\beta\) 称为线性投影误差 (linear projection error)。这里我们使用符号 \(e\) 以区别于 \(\varepsilon=y-m(x)\) 。
证明:
(a) \(E[xe]=0\)
(b) 若 \(x\) 中包含常数项,则 \(E[e]=0\)
2.2.1. 遗漏变量偏误#
考虑如下的长回归 (long regression)
再考虑如下的短回归 (short regression)
其中 \(e_{\beta}\) 和 \(e_{\gamma}\) 分别为相应模型的投影误差。如果 \(\beta_1\) 为长回归中我们感兴趣的参数,但是我们遗漏了变量 \(x_2\) ,则我们只能处理为短回归模型,产生遗漏变量偏误 (omitted variable bias), 使得 \(\gamma_1\not=\beta_1\) 。但这里也有例外,如果 \(x_1\) 与 \(x_2\) 不相关, 此时仍然有 \(\gamma_1=\beta_1\) 。
为了便于讨论,我们将两个回归模型中的变量进行零均值化,这样就可以在回归模型中去掉常数项。可以证明,这样处理后结果与带常数项的回归结果是等价的。此时长回归模型变为
而短回归模型变为
其中上标波浪线“ \(\tilde{\cdot}\) ”表示将变量零均值化。
证明: \(\tilde{e}_{\beta}=e_{\beta}, \ \tilde{e}_{\gamma}=e_{\gamma}\).
零均值化后,短回归的系数为
其中第三个等号成立是因为\(E[\tilde{x}_1\tilde{e}_{\beta}]=0\). 因此,\(\gamma_1=\beta_1\)当且仅当\(E[\tilde{x}_1\tilde{x}_2^{\prime}]\beta_2=0\),即\(E[\tilde{x}_1\tilde{x}_2^{\prime}]=0\)或\(\beta_2=0\).
证明: \(E\left[(y-x^{\prime}_1\beta_1-x^{\prime}_2\beta_2-\beta_3)^2\right]\leq E\left[(y-x^{\prime}_1\gamma_1-\gamma_2)^2\right]\)
显然,如果条件允许,我们更愿意使用长回归模型来得到系数 \(\beta_1\) ,因为相比于短回归模型,长回归模型是一个更加广义的模型,有更小的投影误差。然而有时候在实际中 \(x_2\) 无法观测,这使得我们无法使用长回归模型, 这种类型的遗漏变量偏误在应用中非常普遍。当然,最理想的情况下我们希望能够直接观测到需要的回归变量, 但现实中, 我们也许并不能直接得到这些数据。由于种种限制,有时长回归是无法实现的,此时只能退而求其次使用短回归模型。当数据不够理想时,我们应该了解潜在的影响是什么。在有些特定情况下,我们能够确认遗漏变量偏差的符号,这就意味着此时我们能够基于已有的知识对 \(\gamma_1\) 和 \(\beta_1\) 的大小关系进行判断,这对于我们的推断也是十分有用的。
2.3. 因果关系#
2.3.1. 结构与识别#
经济学被称为社会科学皇冠上的明珠, 常常被拿来与物理学这颗自然科学皇冠上的明珠进行对比。在开始本节内容之前, 我们对经济学与物理学进行一些对比, 以明确我们引入本节问题的必要性。回想一下那些耳熟能详的物理定律, 比如爱因斯坦的质能方程 \(E=mc^{2}\) ,和牛顿的万有引力公式 \(F=Gm_1 m_2/r^2\)。这些物理学定律非常简洁明确, 体现着事物的一般规律。经济学中是否也有这样的规律呢? 遗憾的是,与物理学定律不同,经济现象很少能够像这样被简洁地描述。
在物理学中, 实验是验证物理定律的重要方式。在进行实验时,科学家们常常会通过一些精巧的设计来控制可能影响实验结果的其他因素,将噪声控制在可以忽略不计的水平上,使得实验的信噪比尽可能高。与之相反,经济学规律并不适合在实验室里进行实验。最糟糕的是,经济学研究的对象,人类,具有很强的异质性, 有许许多多难以控制的特征。对于同样的事件,来自不同文化和家庭背景的人可能会做出不同的反应。研究者很难对人们进行同质化的处理。总结来说,由于实验设置的缺陷与研究主体的异质性,经济学规律中的信噪比要显著低于物理学定律。
我们再来回顾经济学中的两个经典课题: 教育回报与供求系统。要研究教育回报问题,我们需要控制其他因素对个人收入的影响,但一个人的收入由其学术与职业道路中无数的随机因素决定,经济学家不可能完美地观察并控制这些变量。在供求问题中,我们观察到的价格与市场总量是均衡的结果,因此需求和供给二者是互相影响的。我们该如何在复杂的经济学问题中识别出因果关系?
但在讨论这个问题之前,有一个重要的问题: 何为因果关系? 实际上,因果关系本身的定义,也经过了许多代思想家的争论。在经济学中, 结构因果关系 (structural causality) 是一种可接受的定义。结构因果关系是一种思想实验,假设观察到的数据是由某一数据生成过程(DGP)生成的。如果我们能够用数据还原出DGP或者其某些特征,那么我们就能得到因果关系或者对因果关系下推论。
在观察实现的样本之前,还有一个重要的问题需要解决,这就是识别 (identification) 问题。考察一个模型 (或者DGP)中我们关注的每一个参数,如果参数的取值不同,相应观测到数据特征也所有不同,我们就称模型是可识别的 (identified)。相反,如果不同的参数可能会产生具有相同特征的数据,我们就称这个模型是不可识别的 (under-identified)。换言之,如果对于给定的数据,我们无法得到模型中唯一的参数,那么模型就是不可识别的。
当然,模型正确设定是讨论一切识别问题的先决条件。但实际上,”所有的模型都是错误的”,因此在讨论识别问题时,我们实际上是在一个想象的世界中进行。如果在这样一个思想实验中,我们仍然不能唯一确定DGP中的参数,那么该模型就无法被识别。也就是说,无论我们有多么大的样本量,我们都无法确定正确的模型。
2.3.2. 处置效应#
因果关系与识别问题是非常大的课题,我们这里缩小我们的讨论范围,将研究框架限定在 \(y\) 和 \(x\) 的关系上。处置效应 (treatment effect) 是一个我们特别感兴趣的问题. 假设我们关心的变量是\(d\),在保持其他所有变量不变 (包括不可观测的变量)的条件下改变一单位的\(d\),相应的\(y\)产生的改变就是处置效应. 拉丁语中ceteris paribus意为”其他条件不变”,就是这个意思.
(写于2020年9月)在2020年新冠肺炎疫情期间,香港的失业率升至高位,消费也经历了较大的衰退. 为了振兴经济, 政府向某些符合条件的香港居民发放了每人1万港元的现金津贴。我们感兴趣的问题是: 1万港元的津贴能增加多少个人消费? 对于每个个体,我们想象有两个平行世界,其中一个世界里这个个体获得了现金津贴,记相应的消费为\(Y(1)\); 而另一个世界中没有获得现金津贴,相应的消费为 \(Y(0)\) ,二者的差值就是该个体的处置效应. 这样的思想实验称为潜在结果框架 (potential outcome framework).
然而,在现实中,有且仅有一种情况发生,正如古希腊哲学家Heraclitus(553 BC–475 BC)所说, “人不能两次踏入同一条河流”。每个个体身上有且仅有一种结果得到实现, 因此个体的处置效应不具有可操作性 (operational)。但我们有很多个体的数据,于是我们可以定义平均处置效应 (average treatment effect*,即ATE)
但我们注意到, \(E[Y(1)]\)和\(E[Y(0)]\)仍然不具有可操作性, 因此我们需要引入一个伴随变量
一旦每个个体的处置状态被观测到, \(E[Y(1)|D=1]\)和\(E[Y(0)|D=0]\)就可以由已有的数据进行估计。
如果两种潜在结果 \((Y(1),Y(0))\) 与伴随变量 \(D\) 独立,则有\(E[Y(1)]=E[Y(1)|D=1]\)和\(E[Y(0)]=E[Y(0)|D=0]\)成立,于是利用观测到的数据可以对ATE进行估计
因此,为了得到ATE的估计,我们需要用类似于彩票的方式随机地决定哪些人进入处理组(treatment group,此时\(D=1\)),哪些人进入控制组(control group,此时\(D=0\))。
如果我们还有其它的控制变量,我们也可以进一步定义在条件 \(x\) 上的处置效应:
直观来看,ATE就是保持其它所有因素 \(x\) 不变的情况下,假设对每个个体施加处置时的平均影响。如果在给定的 \(x\) 下,处置变量 \(D\) 与 \((Y(1),Y(0))\) 独立,则ATE可以被已有数据估计:
注意,该式成立需要满足一个重要的条件,即 \(((Y(1),Y(0))\perp D)|x\) , 这个条件也被称为条件独立假设 (conditional independence assumption*,即CIA)。
条件独立假设CIA比完全的独立性更易满足. 考虑 \(Y(1)=x+u(1),\ Y(0)=x+u(0)\)以及\(D=1\{x+u_d\geq 0\}\) 。如果有\(((u(0),u(1))\perp u_d)|x\)成立,则条件独立假设CIA成立. 然而,\(x\) 同时出现在这几个随机变量中,因此 \((Y(1),Y(0))\) 和 \(D\) 在统计学上是独立的。
2.3.3. ATE与CEF#
在前面一节,我们讨论了 \(D\) 为二值变量时的情况。现在我们来考虑连续的处置变量 \(D\) 。假设数据生成过程DGP(或结构式模型)为 \(Y=h(D,x,u)\) ,其中 \(D\) 和 \(x\) 是可观测的,而 \(u\) 不可观测。自然地,对连续的处置变量 \(D\) ,我们可以定义ATE (在Hansen书的Chapter2.30中将其称为 平均因果效应 ,(average causal effect)
其中隐含了 \(h(d,x,u)\) 在 \(d\) 处连续可微的假设。与二值的情况不同,这里 \(d\) 显式地出现在了定义式 \(ATE(d,x)\) 中,因为处置效应在不同的 \(d\) 下是变化的。直观来看,连续情况下的ATE就是保持其它所有因素 \(x\) 不变的情况下,假设对每个个体施加的处置发生极小的变动时产生的平均影响。
在前面的章节中讨论了条件期望函数 \(m(d,x)\) ,这里我们加入了 \(d\) ,表示它是我们感兴趣的变量。我们的目标并不是对经济机制 \(h(D,x,u)\) 进行建模,那样会使得我们的工作变得非常复杂。一个简化的思路为: \(ATE(d,x)\) 具有结构性的因果解释 (structural causal interpretation),而 \(m(d,x)\) 关心的仅仅是最优的预测,那么我们能否利用 \(m(d,x)\) 得到 \(ATE(d,x)\) ? 在条件独立假设下,即 \((u\perp D)|x\) 成立时,答案是肯定的。
上面推理过程的第二行隐含了求导符号与积分符号的可交换性。在条件独立假设下我们有 \(\frac{\partial}{\partial d}f(u|d,x)=0\) ,因此最终结果中的第二项为 \(0\) ,于是有
这是一个非常重要的结论。该结论表明,如果条件独立假设成立,那么给定 \(x\) ,我们就可以利用条件均值函数的偏导数来得到 \(d\) 对 \(y\) 的因果效应。考虑一个常见的特例,假设条件均值函数为线性,即有 \(m(d,x)=\beta_d d+\beta^{\prime}_{x}x\) ,那么 \(d\) 对 \(y\) 的因果效应就是相应的系数\(\beta_d\) 。
条件独立假设是连接条件均值函数与因果效应的关键条件。需要强调的是,不能轻易假设条件独立成立。因此在应用中,只有当我们能够验证条件独立假设时,得到的因果结论才是可信的。
假设工厂的产出服从柯布-道格拉斯函数 \(Y=AK^{\alpha}L^{\beta}\) ,其中资本水平 \(K\) ,劳动投入 \(L\) 和产出 \(Y\) 是可观测的,而技术水平 \(A\) 是无法直接观测的。在等式两边取对数得到
其中 \(y=\log Y,\ u=\log A,\ k=\log K,\ l=\log L\) 。假设真实的DGP由下面的参数生成:
注意到这里的 \(u\) 和 \(k\) 是相关的,因为大规模的工程能够负担起机器人的费用,从而实现自动化生产。
对于固定的劳动水平\(l\),当我们以\(k\)作为处置变量时,求相应条件期望函数的偏导数. (提示: 由于联合正态性,条件期望函数是线性的)
它是否等于因果模型 (2.3) 中的系数\(\alpha=1/2\)? (提示: 不是,因为条件独立假设被违反了)
有时候,使用者会简单粗暴地将DGP假设为 \(y=m(d,x)+u\) ,其中 \(E[u|d,x]=0\) 。\(d\) 为我们感兴趣的变量, \(x\) 为控制变量组成的向量。在这些假设下,我们有
其中第二个等式在满足 \(\frac{\partial}{\partial d}E[u|d,x]=E\left[\frac{\partial}{\partial d}u|d,x\right]\) 时成立。乍一看,似乎只需要满足均值独立假设 \(E[u|d,x]=0\) 就能建立起 \(ATE(d,x)\) 和 \(\partial m(d,x)/\partial d\) 之间的等价关系。这一假设弱于条件独立假设,似乎是一个非常好的结论。然而,这个条件的轻微弱化必须由非常强的假设支撑: 我们假设 \(h(d,x,u)\) 服从 \(m(d,x)+u\) 这种可以用加法分离的形式。如果我们对DGP作出的这一假设并没有得到经济理论的支撑,这至多算是简约形式 (reduced-form) 。
这里我们作进一步的说明。由经济理论指导的 结构化方法 (structural approach) 是对经济机制进行建模。简约形式方法 (reduced-form approach) 则方便不少,可以在无法建立合适的经济模型时发掘一些统计上的特征。这两种方法的优缺点的讨论经久不息,参见 Jorimal of Economic Perspectives Vol. 24, No. 2 Spring 2010。比如一个经典的例子,在宏观经济学中,由A.W. Phillips提出的菲利普斯曲线揭示了通胀与失业之间的负相关关系,它就是通过简约形式方法得到的一个特征事实。卢卡斯批判 ([Lucas, 1976]) 揭示了它在微观基础方面的缺失,提倡对那些不随政策改变的参数进行深度建模,也就是结构式方法。但具有讽刺意味的是,距离卢卡斯批判的提出已有40余年,这类几乎没有微观基础的方程仍然在央行官员的分析工具中占据着主导地位。所以,这让人不禁思考,看似精美但无法普及的深度建模就一定是更好的方法吗?
2.4. 总结#
在本章中,我们讨论了条件均值函数与因果关系。对于从联合分布中抽样的一对随机变量 \((y,x)\) ,条件期望函数为它们的最优预测。进一步我们还讨论了处置变量 \(d\) 与被解释变量 \(y\) 之间的结构因果关系,证明了在条件独立条件CIA下ATE与CEF的偏导数之间的等价性。当然,我们目前的讨论都是总体下的结论,还没有涉及到样本的结论。
历史趣闻
回归与条件期望是统计学中的重要概念,这两个概念很早就被引入了计量经济学中。Cowles委员会 (现Cowles经济学研究基金会) 的研究者们,包括Jacob Marschak (1898-1977),Tjalling Koopmans (1910-1985,获1975年诺贝尔经济学奖),Trygve Haavelmo (1977-1999,获1989年诺贝尔经济学奖),都是计量经济学中结构式方法的开拓者。
潜在结果框架 (potential outcome framework) 并非经济学独有的,它同时也被广泛用于生物统计学和医药研究等领域。它最初由Jerzy Neyman (1894-1981)提出,并且由目前在清华大学就职的统计学教授Donald B. Rubin (1943-) 在此基础上拓展延伸。
拓展阅读
[Lewbel, 2019] 全面总结了计量经济学中的识别问题。会计学是一个重要的应用领域,其中许多声称的因果推断都是由简单的回归得到。令人欣慰的是, [Gow et al., 2016] 反思了他们在实践中所谓的因果关系。
2.5. 参考文献#
Gow, I. D., D. F. Larcker, and P.C. Reiss (2016). Causal inference in accounting research. Journal of Accounting Research 54(2),477-523. 2.4
Lewbel, A. (2019). The identification zoo: Meanings of identification in econometrics. Journal of Economic Literature 57(4),835-903. 2.4
Lucas, R. E. (1976). Econometric policy evaluation: A critique. In Carnegie-Rochester conference series on public policy, Volume 1, pp. 19-46. 2.3