4. 最小二乘法:有限样本理论#

本章研究最小二乘法的性有限样本精确,以用于统计推断。

基于线性投影模型:

\[ \begin{aligned}y & =x'\beta+e\end{aligned}, \]

投影系数 \(\beta\) 可以写作:

(4.1)#\[ \beta=\left(E\left[xx'\right]\right)^{-1}E\left[xy\right]. \]

我们从 \(\left(y,x\right)\) 的联合分布中取出一个观测值,记作 \(\left(y_{i},x_{i}\right)\) 。重复此过程 \(n\) 次得到 \(n\) 个观测值,即 \(i=1,\ldots,n\), 那么我们就得到一个样本 \(\left(y_{i},x_{i}\right)_{i=1}^{n}\)

样本均值 (sample mean) 是总体均值 (population mean) 的天然估计量。 将式 (4.1) 中总体均值 \(E\left[\cdot\right]\) 替换为样本均值 \(\frac{1}{n}\sum_{i=1}^{n}\cdot\) ,那么相应的最小二乘法系数的估计值就可以写作:

\[\begin{split} \begin{aligned} \widehat{\beta} & =\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}'\right)^{-1}\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}\\ & =\left(\frac{X'X}{n}\right)^{-1}\frac{X'y}{n}=\left(X'X\right)^{-1}X'y.\end{aligned} \end{split}\]

(上式假设了 \(X'X\) 是可逆的)。上式中最小二乘法的显示解和最小化残差平方和获得的解释一样的。

评注 4.1

样本\(\left(y_{i},x_{i}\right)\) 到底是随机的呢?还是固定的呢?

——在我们观测之前, 样本是随机变量,而随机变量的值是不确定的。 当我们谈起样本的统计学性质时,我们必须将其视之为随机变量,因为只有随机变量才有统计学性质,固定值的统计学性质是无意义的。而在我们观测之后, 样本的值就确定下来了,成为固定值, 不能再更改。

在实际操作中, 我们手中只有一些给定的数据 (当然, 现在的大数据也可以将文本, 照片声音和图像处理成为数据, 这些数据在计算机当中用0和1来表示)。 我们把这些数据扔给计算机, 让计算机给出一个结果。在统计学意义上, 我们认为这些数字是从一个概率分布上得出的 思想实验 结果。思想实验说白了就是一个故事。在公理体系统治的概率论当中, 这个故事在数学上是自洽的。 但是要知道,数学本身是一个套套逻辑 (tautology) , 而不是科学。

概率模型的科学价值在于它到底在多大程度上逼近事实的真相?以及, 它是不是能够帮我们预测一些真相?进一步,我们要问,究竟什么是 真相 ?我们在第二章开头引用了”盲人摸象”的故事,这里的 就是真相,而每一个盲人从某个侧面去了解真相。在这门课中, 我们假设数据来自于某种机制,我们把这种机制当成真相。比如,在线性回归当中, \(\left(y,x\right)\) 的联合分布就是我们头脑中的真相。而我们想要研究的线性投影系数 \(\beta\) 即为此真相的某个侧面表现形式。

rpois(20)

rnorm(20)

4.1. 有限样本分布#

要得到有限样本精确分布,我们需要假设误差项服从某种分布。 有限样本分布 意味着它适用于任何的 \(n\) ;与之相对的是渐近分布 ,通过大样本来逼近有限样本分布。 正态分布是一种常用的分布,首先我们来复习正态随机向量的一些常见性质。

事实 4.1

\(z\sim N\left(\mu,\Omega\right)\)\(l\times1\) 的随机向量,其中 \(\Omega\) 为正定的方差与协方差矩阵。令 \(A\)\(m\times l\) 非随机矩阵,其中 \(m\leq l\) 那么 \(Az\sim N\left(A\mu,A\Omega A'\right)\)

以上是联合正态分布的线性转换不变性。

事实 4.2

如果 \(z\sim N\left(0,1\right)\)\(w\sim\chi^{2}\left(d\right)\)\(z\)\(w\) 相互独立。那么 \(\frac{z}{\sqrt{w/d}}\sim t\left(d\right)\)

我们使用最小二乘估计

\[ \widehat{\beta}=\left(X'X\right)^{-1}X'Y=\left(X'X\right)^{-1}X'\left(X'\beta+e\right)=\beta+\left(X'X\right)^{-1}X'e, \]

假设 4.1

(i) 对于 \( i = 1,\ldots,n\) , \(\left(y_i, x_i\right)\) 独立同分布;(ii) \(e_i|x_i\sim N\left(0,\gamma\right)\) ,其中 \(\gamma > 0\)

则它的条件分布可以被写为:

\[\begin{split} \begin{aligned} \widehat{\beta}|X & =\beta+\left(X'X\right)^{-1}X'e|X\\ & \sim\beta+\left(X'X\right)^{-1}X'\cdot N\left(0_{n},\gamma I_{n}\right)\\ & \sim N\left(\beta,\gamma\left(X'X\right)^{-1}X'X\left(X'X\right)^{-1}\right)\sim N\left(\beta,\gamma\left(X'X\right)^{-1}\right) \end{aligned} \end{split}\]

基于事实3.1\(\hat{\beta}\) 的第 \(k\) 个元素是:

\[ \widehat{\beta}_{k}|X=\eta_{k}'\widehat{\beta}|X\sim N\left(\beta_{k},\gamma\eta_{k}'\left(X'X\right)^{-1}\eta_{k}\right)\sim N\left(\beta_{k},\gamma\left[\left(X'X\right)^{-1}\right]_{kk}\right), \]

其中 \( \eta_{k}=\left(1\left\{ l=k\right\} \right)_{l=1,\ldots,K} \) 用于选出第 \(k\) 个元素。

以上表达式中, \(\gamma\) 是一个未知参数。 我们可以用

\[ s^{2}=\widehat{e}'\widehat{e}/\left(n-K\right)=e'M_{X}e/\left(n-K\right) \]

无偏地估计 \(\gamma\), 其无偏性验证如下:

\[\begin{split} \begin{aligned} E\left[s^{2}|X\right] & =\frac{1}{n-K}E\left[e'M_{X}e|X\right]=\frac{1}{n-K}\mathrm{trace}\left(E\left[e'M_{X}e|X\right]\right)\\ & =\frac{1}{n-K}\mathrm{trace}\left(E\left[M_{X}ee'|X\right]\right)=\frac{1}{n-K}\mathrm{trace}\left(M_{X}E\left[ee'|X\right]\right)\\ & =\frac{1}{n-K}\mathrm{trace}\left(M_{X}\gamma I_{n}\right)=\frac{\gamma}{n-K}\mathrm{trace}\left(M_{X}\right)=\gamma \end{aligned} \end{split}\]

上式的推导中,我们使用了迹的性质 \(\mathrm{trace}\left(AB\right)=\mathrm{trace}\left(BA\right)\)

如果 \(\beta_{k}^{*}\) 是我们想要检验的值, 基于 原假设 \(H_{0}:\beta_{k}=\beta_{k}^{*}\) 我们可以计算相应的 \(t\) 统计量

\[ T_{k}=\frac{\widehat{\beta}_{k}-\beta_{k}^{*}}{\sqrt{s^{2}\left[\left(X'X\right)^{-1}\right]_{kk}}}, \]

该统计量当中没有任何的未知数, 可以直接用数据计算。 当原假设成立时, \(\beta_{k}=\beta_{k}^{*}\) , 因此

(4.2)#\[\begin{split} \begin{aligned} T_{k} & =\frac{\widehat{\beta}_{k}-\beta_{k}}{\sqrt{s^{2}\left[\left(X'X\right)^{-1}\right]_{kk}}} \\ & =\frac{\widehat{\beta}_{k}-\beta_{k}}{\sqrt{\gamma\left[\left(X'X\right)^{-1}\right]_{kk}}}\cdot\frac{\sqrt{\gamma}}{\sqrt{s^{2}}} \\ & =\frac{\left(\widehat{\beta}_{k}-\beta_{0,k}\right)/\sqrt{\gamma\left[\left(X'X\right)^{-1}\right]_{kk}}}{\sqrt{\frac{e'}{\sigma}M_{X}\frac{e}{\sigma}/\left(n-K\right)}}, \end{aligned} \end{split}\]

此时我们引入 \(\gamma= \sigma^{2}\) 到第二个等式中来帮忙求出分布中最后一个表达式的分子和分母。 分子为

\[ \left(\widehat{\beta}_{k}-\beta_{k}\right)/\sqrt{\gamma\left[\left(X'X\right)^{-1}\right]_{kk}}\sim N\left(0,1\right); \]

分母 \(\sqrt{\frac{e'}{\sigma}M_{X}\frac{e}{\sigma}/\left(n-K\right)}\) 服从\(\sqrt{\frac{1}{n-K}\chi^{2}\left(n-K\right)}\) 。 此外, 因为该联合正态分布的方差-协方差矩阵的非对角块元素均为0

\[\begin{split} \begin{aligned} \begin{bmatrix}\widehat{\beta}-\beta\\ \widehat{e} \end{bmatrix} & =\begin{bmatrix}\left(X'X\right)^{-1}X'e\\ M_{X}e \end{bmatrix}=\begin{bmatrix}\left(X'X\right)^{-1}X'\\ M_{X} \end{bmatrix}e\\ & \sim\begin{bmatrix}\left(X'X\right)^{-1}X'\\ M_{X} \end{bmatrix}\cdot N\left(0,\gamma I_{n}\right)\sim N\left(0,\gamma\begin{bmatrix}\left(X'X\right)^{-1} & 0\\ 0 & M_{X} \end{bmatrix}\right)\end{aligned} \end{split}\]

所以 \((\widehat{\beta}-\beta )\)\(\widehat{e}\) 是相互独立的。如果我们将 \(X\) 视为非随机的, 公式(4.2) 的分子和分母相互独立。 通过事实3.2我们可以得到结果 \(T_{k}\sim t\left(n-K\right)\) 。这使得我们可以进行统计推断。

4.2. 均值和方差#

现在我们放松正态分布假设和 \(x_i\)\(e_i\) 之间的统计独立性。 我们用 \(Y=X\beta+e\) 来表示回归模型, 并且假设:

\[\begin{split} \begin{aligned} E[e|X] & =0_{n}\\ \mathrm{var}\left[e|X\right] & =E\left[ee'|X\right]=\sigma^{2}I_{n}. \end{aligned} \end{split}\]

其中第一个条件被称为 均值独立 假设, 而第二个则被称为 同方差 假设。 与正态分布假设不同, 它们对 \(e_{i}\) 的分布没有限制; 而只是限制了给定 \(x_{i}\)\(e_{i}\) 的一阶矩和二阶矩。 这两个条件下,我们可以得到如下性质。

  • 无偏性:

\[\begin{split} \begin{aligned} E\left[\widehat{\beta}|X\right] & =E\left[\left(X'X\right)^{-1}XY|X\right]=E\left[\left(X'X\right)^{-1}X\left(X'\beta+e\right)|X\right]\\ & =\beta+\left(X'X\right)^{-1}XE\left[e|X\right]=\beta.\end{aligned} \end{split}\]

根据期望迭代法则, 无条件期望为

\[ E\left[\widehat{\beta}\right]=E\left[E\left[\widehat{\beta}|X\right]\right]=\beta. \]

注意,无偏性不依赖同方差假设.

  • 因为 \(\hat{\beta}\) 的方差是

    \[\begin{split} \begin{aligned}\mathrm{var}\left[\widehat{\beta}|X\right] & =E\left[\left(\widehat{\beta}-E\widehat{\beta}\right)\left(\widehat{\beta}-E\widehat{\beta}\right)'|X\right]\\ & =E\left[\left(\widehat{\beta}-\beta\right)\left(\widehat{\beta}-\beta\right)'|X\right]\\ & =E\left[\left(X'X\right)^{-1}X'ee'X\left(X'X\right)^{-1}|X\right]\\ & =\left(X'X\right)^{-1}X'E\left[ee'|X\right]X\left(X'X\right)^{-1}. \end{aligned} \end{split}\]

    因此同方差假设可将其简化为

    \[\begin{split} \begin{aligned}\mathrm{var}\left[\widehat{\beta}|X\right] & =\left(X'X\right)^{-1}X'\left(\sigma^{2}I_{n}\right)X\left(X'X\right)^{-1}\\ & =\sigma^{2}\left(X'X\right)^{-1}X'I_{n}X\left(X'X\right)^{-1}\\ & =\sigma^{2}\left(X'X\right)^{-1}. \end{aligned} \end{split}\]

例子 4.1

(异方差) 如果 \(e_{i}=x_{i}u_{i}\), 其中 \(x_{i}\) 是一个标量随机变量, \(u_{i}\) 独立于 \(x_{i}\), \(E\left[u_{i}\right]=0\)\(E\left[u_{i}^{2}\right]=\sigma_{u}^{2}\) 。 那么有 \(E\left[e_{i}|x_{i}\right]=E\left[x_{i}u_{i}|x_{i}\right]=x_{i}E\left[u_{i}|x_{i}\right]=0\) 但是 \(E\left[e_{i}^{2}|x_{i}\right]=E\left[x_{i}^{2}u_{i}^{2}|x_{i}\right]=x_{i}^{2}E\left[u_{i}^{2}|x_{i}\right]=\sigma_{u}^{2}x_{i}^{2}\)\(x_{i}\) 的函数, 因此 \(e_{i}^{2}\) 是一个异方差误差项。

n = 100; X = rnorm(n)
u = rnorm(n)
plot( y = u, x = X, col = "blue", ylab = "e")
e = X * rnorm(n)
points( y = e, x = X, col = "red")

\(\left(y_{i},x_{i}\right)\) 独立同分布并不能得出 \(e_i\) 同方差。 同方差还是异方差是取决于单次观测中 \(\left(x_{i},e_{i}=y_{i}-\beta x\right)\) 联合分布的内部关系, 然而独立同分布与否取决于样本中不同次观测 \(\left(y_{i},x_{i}\right)\)\(\left(y_{j},x_{j}\right)\)\(i\neq j\))之间的关系。

异方差在计量经济学中无处不见。一个能够自然产生条件异方差的例子是 线性概率模型 \(y_{i}=x_{i}'\beta+e_{i}\)\(y_{i}\in\left\{ 0,1\right\}\) 是一个二元因变量。 把CEF假设为 \(E\left[y_{i}|x_{i}\right]=x_{i}'\beta\) ,那么我们可以使用OLS的来估计 \(\beta\)
条件方差为:

\[ \mathrm{var}\left[e_{i}|x_{i}\right]=\mathrm{var}\left[y_{i}|x_{i}\right]=E\left[y_{i}|x_{i}\right]\left(1-E\left[y_{i}|x_{i}\right]\right)=x_{i}'\beta\left(1-x_{i}'\beta\right) \]

这里的条件方差随着 \(x_{i}\) 而发生改变。

# feel free to change n and beta0 to see the effect of sample size 
# and parameter values
n = 100
beta0 = c(1.0, 1.0, 0.0) 

The sample size is set to be 100, which is moderate for simple regressions.

X = cbind(rnorm(n), rpois(n, 3) )
e = rlogis(n)

y = cbind(1, X ) %*% beta0 + e # generate data

Generate data

reg1 = lm( y ~ X ) # OLS regression
summary(reg1)
yhat = predict( reg1, data  = X ) # predicted value from the OLS regression
matplot( x = X[,1], y = cbind(y, yhat), pch = 1:2, xlab = "x", ylab = "y")
legend(x = 2, y = -2, pch = 1:2, col = 1:2, legend = c("y", "predicted"))

Change \(y\) to be a binary variable

y01 = (y >= 0) 
reg2 = lm( y01 ~ X ) # logistic regression
summary(reg2)
yhat01 = predict( reg2, data  = X )
reg3 = glm( y01 ~ X, family=binomial(link='logit') )
summary(reg3)
yhat01_logit = predict( reg3, data  = X, type="response" )
matplot( x = X[,1], y = cbind(y01, yhat01, yhat01_logit), pch = 1:3, xlab = "x", ylab = "y" )
legend(x = 2, y = .3, pch = 1:3, col = 1:3, legend = c("y", "linear pred.", "logit pred."))

4.3. Heteroskedasticity#

Heteroskedasticity can happen even if the observations are iid across \(i\) 。 In the following example, \(e_i = x_{1i} u_i \) and \(x_{1i}\) and \(u_i \sim (0, \sigma^2 ) \) are independent. The mean independence $\(E[e_i|x_i] = x_{1i} E[u_i|x_i] = 0\)\( is still satisfied, but \)\(E[e_i^2 |x_i] = x_{1i}^2 E[u_i^2 |x_i] = x_{1i}^2 \sigma^2.\)$

The OLS estimator is still consistent and asymptotically normal, but the asymptotic variance is difference from the case of homoskedasticity.

4.4. 高斯-马尔可夫定理#

高斯-马尔可夫定理(Gauss-Markov theorem)是关于OLS的有效 的定理。 这里的 有效 指的是它在所有线性无偏估计量中方差最小。

无偏线性估计量五花八门。 比如, \(\left(Z'X\right)^{-1}Z'y\) ( \(z_{i}=x_{i}^{2}\)) 是无偏的,因为它满足 \(E\left[\left(Z'X\right)^{-1}Z'y\right]=E\left[\left(Z'X\right)^{-1}Z'\left(X\beta+e\right)\right]=\beta\) 。 我们也已经通过 \(E\left[\widehat{\beta}\right]=\beta\) 证明了OLS是无偏的。 从无偏性这个角度来讲,它们一样好。 我们只能把目光转到第二个特性方差上面:比较两个无偏估计量,如果一个估计量的方差更小,则认为这个估计量比另一个更好。

评注 4.2

对于两个随机变量 \(X\)\(Y\), 如果其方差之差 \(\left(\Omega_{Y}-\Omega_{X}\right)\) 是个半正定矩阵,则称 \(X\) 的方差小于等于 \(Y\) 的方差。 我们选择通过这种方式比较是因为对于任意非零常数向量 \(c\), \(X\)的线性组合的方差不大于 \(Y\) 的相同线性组合的方差。

\[ \mathrm{var}\left(c'X\right)=c'\Omega_{X}c\leq c'\Omega_{Y}c=\mathrm{var}\left(c'Y\right) \]

\(\tilde{\beta}=A'y\) 为一个线性估计量, 其中 \(n\times K\) 矩阵 \(A\) 可以是 \(X\) 的某个函数。 有

\[ E\left[A'y|X\right]=E\left[A'\left(X\beta+e\right)|X\right]=A'X\beta \]

\(\tilde{\beta}\) 的线性和无偏性要求 \(A'X=I_{n}\) 的方差满足

\[ \mathrm{var}\left(A'y|X\right)=E\left[\left(A'y-\beta\right)\left(A'y-\beta\right)'|X\right]=E\left[A'ee'A|X\right]=\sigma^{2}A'A. \]

\(C=A-X\left(X'X\right)^{-1}.\)

\[\begin{split} \begin{aligned}A'A-\left(X'X\right)^{-1} & =\left(C+X\left(X'X\right)^{-1}\right)'\left(C+X\left(X'X\right)^{-1}\right)-\left(X'X\right)^{-1}\\ & =C'C+\left(X'X\right)^{-1}X'C+C'X\left(X'X\right)^{-1}\\ & =C'C, \end{aligned} \end{split}\]

其中最后一个等式有:

\[ \left(X'X\right)^{-1}X'C=\left(X'X\right)^{-1}X'\left(A-X\left(X'X\right)^{-1}\right)=\left(X'X\right)^{-1}-\left(X'X\right)^{-1}=0. \]

因此得到 \(A'A-\left(X'X\right)^{-1}\) 是个半正定矩阵。任意 \(\tilde{\beta}\) 的方差都不可能小于OLS估计量的方差 \(\widehat{\beta}\) 。 上述推导表明了 OLS在所有的线性无偏估计量中达到了最小方差。

同方差是一个严苛的假设。 在同方差假设下, \(\mathrm{var}\left[\widehat{\beta}\right]=\sigma^{2}\left(X'X\right)^{-1}\) 。 常见的估计量 \(\sigma^{2}\) 是残差的样本均值,即 \(\widehat{\sigma}^{2}=\frac{1}{n}\widehat{e}'\widehat{e}\) 或者无偏的表达式为 \(s^{2}=\frac{1}{n-K}\widehat{e}'\widehat{e}\) 。 当存在异方差时, 高斯-马尔可夫定理不适用。

4.5. 总结#

经典的数理统计推导基于误差项正态分布下的精确分布。高斯-马尔可夫定理成立要基于两个关键的假设:线性的条件期望函数(CEF)和同方差。

This historical note comes from an earlier version

历史趣闻

极大似然估计由 Ronald Fisher (1890–1962) 是频率学派的奠基人。 这些研究方法时至今日还占据着主流地位, 同时他尖锐地批评了贝叶斯学派的研究方法。Fisher 在他1936年的生物学研究中,搜集了一个150个样本 的鸢尾花数据组,在R软件中输入指令iris就能看到相应的展示。许多在经典数学统计中的概念都是由Fisher发明的, 比如充分统计量,辅助统计量,完备性和指数族等等。

拓展阅读

[Phillips, 1983] 总结了计量经济学理论的精确小样本理论结果。 在这之后,计量经济学的理论研究转向了大样本理论。

4.6. 附录#

4.6.1. 联合正态分布#

毫无疑问,在统计学推断中最经常遇到的分布就是正态分布,因为他是许多常见的统计量的渐进分布。 此外,它有着许多独特的性质大大简化了计算。在这里总结当中的部分性质。

一个 \(n\times1\) 随机变量 \(Y\) 遵循一个联合随机变量分布 \(N\left(\mu,\Sigma\right)\) ,其中的 \( \mu \) 是一个 \(n\times 1\) 向量而 \(\Sigma\) 则是一个 \(n\times n\) 对称正定矩阵。 概率密度函数是

\[ f_{y}\left(y\right)=\left(2\pi\right)^{-n/2}\left(\mathrm{det}\left(\Sigma\right)\right)^{-1/2}\exp\left(-\frac{1}{2}\left(y-\mu\right)'\Sigma^{-1}\left(y-\mu\right)\right) \]

其中 \( \mathrm{det}\left(\cdot\right) \) 是矩阵的行列式。 矩量母函数则是: \(M_{y}\left(t\right)=\exp\left(t'\mu+\frac{1}{2}t'\Sigma t\right)\)

我们将在这里讨论一个随机变量的两个组成部分间的关系,为了统一符号:

\[\begin{split} Y=\left(\begin{array}{c} Y_{1}\\ Y_{2} \end{array}\right)\sim N\left(\left(\begin{array}{c} \mu_{1}\\ \mu_{2} \end{array}\right),\left(\begin{array}{cc} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array}\right)\right) \end{split}\]

当中 \(Y_{1}\) 是一个 \(m\times 1\) 向量,而 \(Y_{2}\) 是一个 \(\left(n-m\right)\times1\) 向量。 \(\mu_{1}\)\(\mu_{2}\) 是对应的平均向量。 \(\Sigma_{ij}\)\(j=1,2\) 则是相应的方差-协方差矩阵。 从此往下,我们仍然假设 \(Y=\left(Y_{1},Y_{2}\right)\) 服从联合正态分布。

事实3.1 指出了正态分布的线性转换不变性质。一般来说,如果我们给定两个随机变量的联合概率密度函数, 并且希望得到他们其中一个随机变量的边际分布,我们需要把另一个变量从联合概率密度函数中 积分出去。然而,如果变量符合联合正态,那么另一个变量的信息与我们感兴趣的那个随机变量的边际分布无关。我们只需要知道我们关心的那一部分的信息,比如平均数 \(\mu_{1}\) 和方差 \(\Sigma_{11}\) 来决定 \(Y_{1}\) 的边际分布。

事实 4.3

边际分布 \(Y_{1}\sim N\left(\mu_{1},\Sigma_{11}\right)\)

如果我们对于估计量的某个子向量(subvector)感兴趣的话,那么这个结论非常方便。例如线性回归模型的OLS估计量 \(y_{i}=x_{i}'\beta+e_{i}\),如果满足以下经典假设 (i) 样本随机;(ii) \(z_{i}\)\(e_{i}\) 独立; (iii) \(e_{i}\sim N\left(0,\gamma\right)\) ,那么会有

\[ \widehat{\beta}=\left(X'X\right)^{-1}X'y \]

以及 \(\widehat{\beta}\) 的有限样本精确分布

\[ \left(\widehat{\beta}-\beta\right)|X\sim N\left(0,\gamma\left(X'X\right)^{-1}\right) \]

如果我们只是对于 \(\beta_{0}^{\left(j\right)}\) 的第 \(j\) 个分量感兴趣,那么根据事实3.3

\[ \left(\widehat{\beta}_{k}-\beta_{k}\right)/\left(X'X\right)_{kk}^{-1}\sim N\left(0,\gamma\right) \]

其中的 \(\left[\left(X'X\right)^{-1}\right]_{kk}\)\(\left(X'X\right)^{-1}\)\(k\) 阶对角线元素。其边际分布独立于 向量中的其他元素。这使得我们不用将其他的组成部分积分出去。

总结来看,两个随机变量的协方差为0只能表明他们是不相关的,然而统计上完全独立则要求更高。 但是,如果 \(Y_{1}\)\(Y_{2}\) 服从联合正态分布,在这种情况下协方差为0就可以等同于完全独立。

如果 \(\Sigma_{12}=0\),那么 \(Y_{1}\)\(Y_{2}\) 相互独立。

如果 \(\Sigma\) 是可逆的,那么 \(Y'\Sigma^{-1}Y\sim\chi^{2}\left(\mathrm{rank}\left(\Sigma\right)\right)\)

最后的一个结论在线性回归中十分有用。 如果 \(Y_{1}\)\(Y_{2}\) 服从联合正态分布,那么\(Y_{1}\) 基于 \(Y_{2}\) 的条件分布依然是联合正态分布。

它们的均值和方差满足: \(Y_{1}|Y_{2}\sim N\left(\mu_{1}+\Sigma_{12}\Sigma_{22}^{-1}\left(Y_{2}-\mu_{2}\right),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)\)