概率
Contents
1. 概率#
对于日常生活中的不确定性,人们总会不由自主地心生敬畏。在过去,古埃及人依靠祭司,希伯来人崇敬先知,而中国的先人则通过卜师来解读龟甲或者兽骨的裂纹。在今日的香港,还有不少人乐于光顾在庙街一带摆摊设点的算命先生来帮助他们解答生命中的困惑。
概率论是一门关于不确定性的哲学。几百年来,全世界的数学家们都在苦心孤诣试图理解随机背后的规律。随着测度理论在20世纪早期发展成熟,Andrey Kolmogorov (1903-1987) 在1933年发表的专著是当代概率论的里程碑。当中使用的数学语言系统逻辑严谨、自洽,为未来该领域的进一步探索提供了起点。目前,这一套数学语言已经广泛地被学界所接受。
本讲将会简要介绍概率论的公理以及在本科阶段的概率论与数理统计中已经为我们所熟悉的理论。
1.1. 概率论的公理#
1.1.1. 概率空间#
样本空间 \(\Omega\) 是所有可能结果的一个集合。事件 \(A\) 是 \(\Omega\) 的一个子集。我们常用 \(\mathcal{F}\) 表示 \(\sigma\)-域 (\(\sigma\) field) ,它是满足如下条件的事件的集合:
\(\emptyset\in\mathcal{F}\);
如果事件 \(A\in\mathcal{F}\),则也有 \(A^{c}\in\mathcal{F}\);
如果对于所有的 \(i\in\mathbb{N}\) 有 \(A_{i}\in\mathcal{F}\) ,则 \(\bigcup_{i\in\mathbb{N}}A_{i}\in\mathcal{F}\) 。
以上条件意味着: (a) 既然 \(\Omega=\emptyset^{c}\in\mathcal{F}\),则有 \(\Omega\in\mathcal{F}\)。 (b) 如果对于 \(i\in\mathbb{N}\) 有 \(A_{i}\in\mathcal{F}\) ,则对任意 \(i\in\mathbb{N}\) 都有 \(A_{i}^{c}\in\mathcal{F}\)。 因此,如果 \(\bigcup_{i\in\mathbb{N}}A_{i}^{c}\in\mathcal{F}\) ,可以得出 \(\bigcap_{i\in\mathbb{N}}A_{i}=(\bigcup_{i\in\mathbb{N}}A_{i}^{c})^{c}\in\mathcal{F}\).
从直觉来看,\(\sigma\) 域是允许可数(countable)个集合进行并集、差集和交集操作的封闭域。因为以上这些都是集合的代数计算, 所以 \(\sigma\) 域也叫做 \(\sigma\) 代数。
令 \(\Omega=\{1,2,3,4,5,6\}\) 。 以下是一些 \(\sigma\)-域的例子:
\(\mathcal{F}_{1}=\{\emptyset,\{1,2,3\},\{4,5,6\},\Omega\}\);
\(\mathcal{F}_{2}=\{\emptyset,\{1,3\},\{2,4,5,6\},\Omega\}\);
反例: \(\mathcal{F}_{3}=\{\emptyset,\{1,2\},\{4,6\},\Omega\}\) 不是一个 \(\sigma\) 域,因为 \(\{1,2,4,6\}=\{1,2\}\bigcup\{4,6\}\) 并不属于 \(\mathcal{F}_{3}\)。
\(\sigma\) 域是在样本空间 \(\Omega\) 上建立的严谨架构。将两者放在一起, \(\left(\Omega,\mathcal{F}\right)\) 称为 可测空间 (measurable space)。
令 \(\mathcal{G}=\{B_{1},B_{2},\ldots\}\) 为任意的一个集合。如果满足条件 (i) \(\mathcal{G}\subseteq\mathcal{F}\) , (ii) 对于任意的包含 \(\mathcal{G}\) 的 \(\sigma\) 域 \(\mathcal{\tilde{F}}\),都有 \(\mathcal{F}\subseteq\mathcal{\tilde{F}}\), 我们就称 \(\mathcal{F}\) 是由 \(\mathcal{G}\) 产生的最小\(\sigma\) 域 。
令 \(\Omega=\{1,2,3,4,5,6\}\) ,且令 \(\mathcal{A}=\{\{1\},\{1,3\}\}\)。 由 \(\mathcal{A}\) 生成的 最小 \(\sigma\)-field 是
波莱尔 \(\sigma\) 域是由实数 \(\mathbb{R}\) 上的所有开集生成的最小 \(\sigma\) 域。
如果函数 \(\mu:(\Omega,\mathcal{F})\mapsto\left[0,\infty\right]\) 满足如下条件
(非负性) 对任意 \(A\in\mathcal{F}\),都有 \(\mu\left(A\right)\geq0\);
(可列可加性) 如果对于任意的 \(i\in\mathbb{N}\),\(A_{i}\in\mathcal{F}\) 互不相交,则
\[ \mu\left(\bigcup_{i\in\mathbb{N}}A_{i}\right)=\sum_{i\in\mathbb{N}}\mu\left(A_{i}\right), \]
我们将该函数 \(\mu\) 称为 测度 。
测度可以类比于日常生活中的宽度或重量来理解。 特别是,当 \(\mu\left(\Omega\right)=1\), 我们就称 \(\mu\) 为概率测度。 概率测度通常用符号 \(P\) 来指代。 在可测空间之上赋予\(\left(\Omega,\mathcal{F}\right)\) 概率测度 \(P\),这三者 \(\left(\Omega,\mathcal{F},P\right)\) 称为 概率空间 (probability space)。
目前为止我们已经回答了问题: “什么是一个数学意义上定义完备的概率?”,但我们还没有回答一个问题“怎么分配概率?” 在概率分配中有两个主流的学派:频率学派把概率视作多次实验之后出现结果的平均频率; 而贝叶斯学派把概率解释为对于事情发生可能性的主观信念。 两个学派的理论基本上互不兼容,他们的主张根据实际应用场景各有优缺点。 有关这两个学派观点会在有关假设检验的章节涉及。
1.1.2. 随机变量#
术语 随机变量 是一个历史遗留下来的称呼,实际上如果考虑到它定义中映射的确定性,这个术语会显得有一点名不副实。 随机变量是连接两个可测空间的一种特定的映射,它要求置于值域中的任意事件都能追溯到定义域中的一个对应的事件。如果对于任何的 \(B\in\mathcal{R}\),都有
我们称 \(X:\Omega\mapsto\mathbb{R}\) 是连接 \(\left(\Omega,\mathcal{F}\right)\backslash\left(\mathbb{R},\mathcal{R}\right)\) 的可测函数 (measurable function)。 随机变量 是可测函数带有浪漫气息的别名。由 随机变量 \(X\) 生成的 \(\sigma\) 域 被定义为 \(\sigma\left(X\right)=\left\{ X^{-1}\left(B\right):B\in\mathcal{R}\right\}\) 。
如果\(\left\{ X\left(\omega\right):\omega\in\Omega\right\}\)是有限的或者可数的, 我们将这样的可测函数称为离散性随机变量。如果集合\(\left\{ X\left(\omega\right):\omega\in\Omega\right\}\) 是不可数的,我们称之为连续型随机变量 。
可测函数的定义中还没有涉及到任何概率相关的概念。 但如果 \((\Omega,\mathcal{F})\) 上有一个概率测度 \(P\), 可测函数 \(X\) 可以在 \((\mathbb{R},\mathcal{R})\) 上导出一个概率测度。不难证明,如果满足定义
那么\(P_{X}:(\mathbb{R},\mathcal{R})\mapsto\left[0,1\right]\) 也是一个概率测度。 这样的 \(P_{X}\) 被称为由 \(X\) 诱导的概率测度。诱导概率测度 \(P_{X}\) 是 \(P\) 通过由 \(X\) 所衍生出来的。
(数据实例)
我们以香港最受欢迎的300个Youtube账号为例子,查看他们上传的视频数量。
数据来源: 香港最受欢迎的300个Youtubers.
d0 = readr::read_csv("HKTop300YouTubers.csv")
print(d0)
library(magrittr)
# remove NA and zeros
d0[ d0 == 0 ] <- NA
sel <- d0 %>% is.na( ) %>% apply( 1, any)
d0 %<>% dplyr::filter( !sel )
d1 <- d0 %>% dplyr::select(3:5)
names(d1) <- c("subs", "view", "count")
print( d1[["count"]] )
d1.log <- log(d1)
hist(d1.log[["count"]])
1.1.3. 分布函数#
我们回溯一下几个在本科概率论课程上曾经接触过的概念。累积分布函数(cumulative distribution function,简记CDF) \(F:\mathbb{R}\mapsto[0,1]\) 被定义为
它有如下性质:
\(\lim_{x\to-\infty}F\left(x\right)=0\),
\(\lim_{x\to\infty}F\left(x\right)=1\),
(弱)单调递增,
右连续 \(\lim_{y\to x^{+}}F\left(y\right)=F\left(x\right).\)
plot(ecdf(d1.log[["count"]]), verticals = TRUE, do.points = FALSE)
随机变量的第 \(q\) 分位点为 \(\min_{x\in \mathbb R} P(X \leq x) \geq q\)。
quantile(d1.log[["count"]], probs = 1:4/4 )
画出一个0-1分布的累积分布函数; \(X=1\)对应的概率为 \(p\in\left(0,1\right)\) 而 \(X=0\) 对应概率 \(1-p\) 。
对于连续型分布来说, 如果存在一个函数 \(f\) 使得对于所有的 \(x\) 满足
那么 \(f\) 就是 \(X\) 的概率密度函数(probability distribution function,简记PDF)。容易看出它有以下性质:(i) \(f\left(x\right)\geq0\) ; (ii) \(\int_{a}^{b}f\left(x\right)dx=F\left(b\right)-F\left(a\right)\) 。
我们已经学过了许多的参数分布,比如二项分布、泊松分布、均匀分布、指数分布和正态分布, \(\chi^{2}\), \(t\), \(F\)分布等等。这些都是参数分布,意味着较少的参数就能够完全表征出他们的累积分布函数和概率密度函数。
二项分布
泊松分布
均匀分布
正态分布
其中均值为 \(\mu\) 而方差为 \(\sigma^2\)。
对数正态分布
它的均值为 \(\exp(\mu + 0.5 \sigma^2)\) 而方差为 \([\exp(\sigma^2 - 1)] \exp(2\mu+ \sigma^2)\)。
\(\chi^{2}\), \(t\),和 \(F\) 分布
R
可以用一系列指令来处理各种常见的分布函数: d
代表密度(density),p
代表概率(probability),q
代表分位点(quantile),r
用于生成随机变量。
例如,dnorm
、pnorm
、qnorm
和 rnorm
都是正态分布的对应函数。形式参数(parameter) \(\mu\) and \(\sigma\) 可以用函数的实际参数(argument)来设定。
qnorm(0.975)
pnorm(0)
dnorm(0)
rnorm(3)
rpois(2, 5)
下方是用于展示的一小段 R
语言:
在均匀的网格
x_axis = seq(-3, 3, by = 0.01)
上画出标准正态分布的密度函数 (黑线);生成正态分布的1000个观测值 \(N(0,1)\)。画出核密度(kernel density),即密度的非参数估计(红线);
求出第95分位点和观测值大于第95分位点的实际概率。 在总体中这个概率是5%。那么本次实验会得到什么结果呢?
(由于我们并未固定随机种子(random seed),每一次运行的结果会略有不同)
x_axis = seq(-3, 3, by = 0.01)
y = dnorm(x_axis)
plot(y = y, x=x_axis, type = "l", xlab = "value", ylab = "density")
z = rnorm(1000)
lines( density(z), col = "red")
crit = qnorm(.95)
cat("the empirical rejection probability is", mean( z > crit ), "\n")
1.2. 数学期望#
1.2.1. 积分#
积分是数学分析中最基础的数学方法之一。我们已经在本科阶段学习过直观的黎曼积分。本讲简要介绍更加通用的勒贝格积分。
给定 \(a_{i}\in\mathbb{R}\) 和 \(\{A_{i}\in\mathcal{F}\}_{i\in\mathbb{N}}\), 如果 \(X=\sum_{i}a_{i}\cdot1\left\{ A_{i}\right\}\) 而且它的加总是有限的,我们称 \(X\) 为在测度空间 \(\left(\Omega,\mathcal{F}\right)\) 上的简单函数。简单函数是可测的。
令 \(\left(\Omega,\mathcal{F},\mu\right)\) 为一个测度空间。 简单函数 \(X\) 相对于 \(\mu\) 的积分定义为
\[ \int X\mathrm{d}\mu=\sum_{i}a_{i}\mu\left(A_{i}\right). \]不同于黎曼积分, 这种积分的定义不需要等额地分割定义域。相反,它依据函数的值域作相应的计算。
令 \(X\) 为非负函数。函数 \(X\) 对于 \(\mu\) 的积分为:
\[ \int X\mathrm{d}\mu=\sup\left\{ \int Y\mathrm{d}\mu:0\leq Y\leq X,\text{ }Y\text{ is simple}\right\} . \]令 \(X\) 为可测函数。 定义 \(X^{+}=\max\left\{ X,0\right\}\) 和 \(X^{-}=-\min\left\{ X,0\right\}\) 。 \(X^{+}\) 与 \(X^{-}\) 都是非负函数。 \(\mu\)对于\(X\)的积分为:
\[ \int X\mathrm{d}\mu=\int X^{+}\mathrm{d}\mu-\int X^{-}\mathrm{d}\mu. \]
上述的第一步定义了简单函数的积分;第二步定义了用下方的阶梯函数测算非负函积分的方法;第三部把一个任意函数视为两个非负部分的差值。
勒贝格积分和黎曼积分之间在被积函数上的核心区别体现在单位区间 \(1\left\{ x\in\mathbb{Q}\cap[0,1]\right\}\) 上的狄利克雷函数(Dirichelet function)。在黎曼意义下该函数不可积,但在勒贝格意义下可积,即 \(\int1\left\{ x\in\mathbb{Q}\cap[0,1]\right\} dx=0\).
如果测度 \(\mu\) 是一个概率测度 \(P\), 那么积分 \(\int X\mathrm{d}P\) 就称为 \(X\) 的数学期望。我们通常会使用符号 \(E\left[X\right]\)来代替 \(\int X\mathrm{d}P\) ,使得整个数学表达式更简洁方便。
尽管我们不能预测在给定情况下一个随机变量的实际值(否则一切对于不确定性的研究都是徒劳),但是期望能够告诉我们随机变量的均值。在频率学派的视角里,期望等于我们进行了大量实验后得出结果的均值。
如果我们知道了一个离散型随机变量的概率质量函数(probability mass function),它的期望就是 \(E\left[X\right]=\sum_{x}xP\left(X=x\right)\) ,也就是一个简单函数的积分。 如果一个连续型随机变量概率密度函数为 \(f(x)\) , 它的期望可以用 \(E\left[X\right]=\int xf\left(x\right)\mathrm{d}x\) 计算。 这两个表达式被勒贝格积分统一为 \(E[X]=\int X\mathrm{d}P\)。
mean( d1.log[["count"]] )
1.2.2. 期望的性质#
以下列举一些数学期望的重要性质:
事件 \(A\) 的概率是指示函数的期望: \(E\left[1\left\{ A\right\} \right]=1\times P(A)+0\times P(A^{c})=P\left(A\right)\).
\(E\left[X^{r}\right]\) 被称为 \(X\) 的 \(r\) 阶矩。一个随机变量的均值是其一阶矩 \(\mu=E\left[X\right]\) ;而二阶中心矩叫做 \(\mathrm{var}\left[X\right]=E\left[\left(X-\mu\right)^{2}\right]\) 方差。三阶中心矩 \(E\left[\left(X-\mu\right)^{3}\right]\) 称为偏度, 用于衡量随机变量的对称性;四阶矩峰度 \(E\left[\left(X-\mu\right)^{4}\right]\) 则用来体现尾部厚度。
var(d1.log[["count"]])
矩条件不一定存在。例如,柯西分布就不存在均值;\(t(2)\) 分布不存在方差。
\(E[\cdot]\) 是线性算子。如果 \(\phi(\cdot)\) 是一个线性函数, 那么有 \(E[\phi(X)]=\phi(E[X])\) 。
Jensen不等式是一个重要的结论。 如果定义域内的所有\(x_{1},x_{2}\)和\(a\in[0,1]\) 都有 \(\varphi(ax_{1}+(1-a)x_{2})\leq a\varphi(x_{1})+(1-a)\varphi(x_{2})\) ,则函数 \(\varphi(\cdot)\) 是凸函数。 例如, \(x^{2}\) 是一个凸函数。 Jensen不等式说的是,如果 \(\varphi\left(\cdot\right)\) 是一个凸函数,那么 \(\varphi\left(E\left[X\right]\right)\leq E\left[\varphi\left(X\right)\right]。\)
Markov不等式是另一个简单但是重要的事实。如果 \(E\left[\left|X\right|^{r}\right]\) 存在,那么对于所有的\(r\geq1\)都有 \(P\left(\left|X\right|>\epsilon\right)\leq E\left[\left|X\right|^{r}\right]/\epsilon^{r}\)。 Chebyshev不等式 \(P\left(\left|X\right|>\epsilon\right)\leq E\left[X^{2}\right]/\epsilon^{2}\) 是Markov不等式在 \(r=2\) 时的特例。
一个随机变量的分布可以被它的CDF或PDF完整刻画,也可以用矩完整刻画。为了从矩中找出对应的分布,我们可以使用矩母函数(mgf) \(M_{X}(t)=E[e^{tX}]\)(\(t\in\mathbb{R}\))。基于mgf可以得到 \(r\) 阶矩
\[ E[X^{r}]=\frac{\mathrm{d}^{r}M_{X}(t)}{\mathrm{d}t^{r}}\big\vert_{t=0}. \]值得注意的是,就像矩一样,有些分布的mgf不存在。
1.3. 多元随机变量#
二元随机变量是 \(X:\Omega\mapsto\mathbb{R}^{2}\) 上的映射。我们可以由此推广到多元的随机变量。 \(X:\Omega\mapsto\mathbb{R}^{n}\) 。 我们可以定义联合CDF为
联合PDF的定义与之类似。
我们复习二元变量的联合分布、条件分布和边际分布。二元的情况可以推广到多元分布。假设二元随机变量 \((X,Y)\) 有一个联合密度函数 \(f(\cdot,\cdot)\)。如果我们暂时忽略 \(f(x)=0\) 的特殊情况,那么我们可以将它的条件密度简略地写成 \(f\left(y|x\right)=f\left(x,y\right)/f\left(x\right)\) 。二元变量的边际密度 \(f\left(y\right)=\int f\left(x,y\right)dx\) 则是把我们不感兴趣的那个变量通过积分将它消除。
plot(d1.log$subs, d1.log$view)
1.3.1. 条件概率和贝叶斯公式#
对于概率空间中 \((\Omega,\mathcal{F},P)\) 的两个事件 \(A_{1},A_{2}\in\mathcal{F}\) ,如果 \(P(A_{2})>0\) ,其条件概率是
在条件概率的定义中, \(A_{2}\) 扮演了结果空间的角色,所以 \(P(A_{1}A_{2})\) 被 \(P(A_{2})\)的值标准化了。 如果 \(P(A_{2})=0\), 有些情况下条件概率公式依然可用,但是在这种情况下,我们需要介绍两个测度之间的支配与被支配关系 (dominating and dominated),我们在此不展开。
既然 \(A_{1}\) 和 \(A_{2}\) 是对称的,我们还能得出 \(P(A_{1}A_{2})=P(A_{2}|A_{1})P(A_{1})\) ,它表明了
这个公式就是著名的贝叶斯定理。
1.3.2. 独立性#
如果 \(P(A_{1}A_{2})=P(A_{1})P(A_{2})\),我们称 \(A_{1}\) 和 \(A_{2}\) 是独立的。 如果 \(P(A_{2})\neq0\) , 就相当于 \(P(A_{1}|A_{2})=P(A_{1})\) 。换言之,如果 \(A_{1}\) 和 \(A_{2}\) 独立,已知 \(A_{2}\) 的信息,将不会改变 \(A_{1}\) 的概率。
如果两个随机变量 \(X\) 和 \(Y\) 独立, 那么对于任意两个波莱尔集 \(B_{1}\) 和 \(B_{2}\), 会有\(P\left(X\in B_{1},Y\in B_{2}\right)=P\left(X\in B_{1}\right)P\left(Y\in B_{2}\right)\)
若 \(X\) 和 \(Y\) 独立,则二者的期望有 \(E[XY]=E[X]E[Y]\) 。即期望的积等于积的期望。
Y <- matrix(rnorm(200), ncol = 2)
plot(x = Y[, 1], y = Y[, 2])
Y <- matrix(rnorm(200), ncol = 2) %*% matrix( c(1, 0.5, 0.5, 1), 2 )
plot(x = Y[, 1], y = Y[, 2])
1.3.3. 期望迭代法则#
给定 \(\left(\Omega,\mathcal{F},P\right)\) ,子 \(\sigma\) 域 \(\mathcal{G}\subseteq\mathcal{F}\) 和满足 \(E\left|Y\right|<\infty\) 的 \(\mathcal{F}\)-可测函数。 在这里 \(\mathcal{G}\) 是一个粗糙的 \(\sigma\) 域, 而 \(\mathcal{F}\) 是一个精细的 \(\sigma\) 域。 如果对于所有的 \(A\in\mathcal{G}\),都有
我们称其为条件期望 \(E\left[Y|\mathcal{G}\right]\)。它是 \(\mathcal{G}\)-可测的,
令 \(A=\Omega\),我们能够得到 \(E\left[Y\right]=\int Y\mathrm{d}P=\int E\left[Y|\mathcal{G}\right]\mathrm{d}P=E\left[E\left[Y|\mathcal{G}\right]\right]\)。这就是著名的期望迭代法则(the law of iterated expectation)
期望迭代法则也称重复期望法则。
按照条件期望的定义来看,这个公式不难理解。在二元变量的案例中,如果条件密度函数存在,那么条件期望可以这样计算: \(E\left[Y|X\right]=\int yf\left(y|X\right)\mathrm{d}y\),其中条件变量 \(E\left[\cdot|X\right]=E\left[\cdot|\sigma\left(X\right)\right]\) 是 \(X\) 生成的最小 \(\sigma\) 域的简化表达。期望迭代法则表明:\(E\left[E\left[Y|X\right]\right]=E\left[Y\right]\)。
dx <- d1.log %>%
tibble::add_column(category = d0$category) %>%
dplyr::group_by(category) %>%
dplyr::summarize(mean = mean(count), no = dplyr::n() )
print(dx)
print( sum( dx$mean * ( dx$no/nrow(d1.log) ) ) ) # average over categories
print( mean(d1.log[["count"]])) # overall average
下方是条件期望的一些性质:
\(E\left[E\left[Y|X_{1},X_{2}\right]|X_{1}\right]=E\left[Y|X_{1}\right];\)
\(E\left[E\left[Y|X_{1}\right]|X_{1},X_{2}\right]=E\left[Y|X_{1}\right];\)
\(E\left[h\left(X\right)Y|X\right]=h\left(X\right)E\left[Y|X\right].\)
1.4. 总结#
历史趣闻
测度理论在20世纪的早期由一群富有才华的法国和德国学者建立。 其中代表人物有Émile Borel, Henri Lebesgue, Johann Radon等等。几代俄罗斯学者如 Andrey Markov 和 Andrey Kolmogorov 为数学化和符号化“不确定性”和“随机性”这些抽象的概念奠定了基础。这些贡献者们的名字被镌刻在在波莱尔集、勒贝格积分、Markov链、Kolmogorov零一法则等术语中。
关于概率的各种各样的有趣的问题吸引了一批又一批学者。Francis Edgeworth (1845–1926) 在概率和统计方面写出了许多的著作; John Maynard Keynes (1883–1946)在1921年发表了《概率论》 将概率和哲学融合到一起,尽管这本书的流传度不如他后来1936年革命性的著作 《就业、利息和货币通论》。
如今,搜集和处理信息的效率和成本相较于一百年前已经发生了翻天覆地的变化。然而,学习和研究数学的投入成本与百年前相差无多。只有一小部分有才华的人才能聆听、体会、继承和发展这些伟大的数学思想。
拓展阅读
[Doob, 1996] 总结了20世纪前半页概率论在公理上的发展。