- 随机过程(1) 线性相关
- 随机过程(2) 宽平稳随机过程相关函数的时频分析
- 随机过程(3) 非平稳随机过程
- 随机过程(4) 多元相关
- 随机过程(5) 高斯过程(1): Gaussian is Everywhere
从这一节课开始,我们将深入研究高斯过程。这是一个非常重要的随机过程,在很多领域都有广泛的应用。
作为研究高斯过程的第一节课,我们主要希望向读者传达高斯过程在实际工程中的普遍性。我们将展示多个场景,每一个场景最终都能够归结到高斯过程上,从而展示我们研究高斯过程的意义和重要性。
一、扩散
首先,我们先从物理的角度上来谈谈扩散 (physical diffusion) 这个概念。值得一提的是,物理意义上的扩散和人工智能中的扩散模型其实本质上是一样的,这一点我们在后续的内容中会进行介绍,但在这一节中,我们主要关注与物理上的扩散过程。
扩散过程可以理解为:我们有一根粗细可以忽略的管子,其中充满了水。当我在水管的某个位置滴入一滴墨水,墨水分子会在水中逐渐地扩散。随着时间的推移,墨水分子在水中会形成某种分布。
我们可以想象,这个分布会是一个钟形曲线,中心区域的浓度较高,而边缘区域的浓度较低,这恰好和高斯分布的概率密度函数非常相似。
下面我们将通过对这个物理系统进行建模,严格地展示墨水分子扩散得到的分布就是高斯分布。
这个工作是爱因斯坦在1905年5月发表的题为《热的分子运动论所要求的静液体中悬浮粒子的运动》的论文提到的。也刚好是在这一年,他发表了狭义相对论和光电效应。
虽然相比于其他两个,这个工作的知名度要低很多,但它却也有非常深远的影响。因为这个工作首次从理性的角度看待了布朗运动,建立了布朗运动的统计理论模型,并帮助人们发现了分子的存在。
我们用一个二元函数 $f(x,t)$ 来表征系统在时间 $t$、在位置 $x$ 处的粒子数量。
下面我们来描述这个粒子在水中的扩散过程。我们固定位置 $x$,考察在经过一段时间 $\tau$ 后,粒子数量的变化。我们知道这个变化肯定来源于其他地方的粒子进入 $x$,又或者是 $x$ 中的粒子去到其他地方。因此,这个地方的粒子数量的改变量就是在 $\tau$ 这段时间内,每一个位置 $y$ 上的粒子数量的改变量的总和:
\[\begin{equation} f(x,t+\tau)=\int_{-\infty}^{\infty}f(x-y,t)\rho(\tau,y)\mathrm{d}y \label{eq:diffusion-integral} \end{equation}\]其中,$\rho(\tau,y)$ 是在位置 $x-y$ 处经过时间 $\tau$ 运动到位置 $x$ 的粒子数量的比例。
公式 \eqref{eq:diffusion-integral} 是对扩散的一种积分表达,这是一种典型的统计力学的方法,因为它并不是单独地对每个粒子进行研究,而是研究粒子的总数。
然而,这个积分方程比较难解。因此一种直观的想法是对 $\tau$ 进行展开,因为时间间隔 $\tau$ 是一个很小的区间。对于方程左边:
\[\begin{equation} f(x,t+\tau)= f(x,t)+\tau\frac{\partial f}{\partial t}+o(\tau) \end{equation}\]对于方程右边,我们对 $y$ 进行展开:
\[\begin{equation} \int_{-\infty}^{\infty}f(x-y,t)\rho(\tau,y)\mathrm{d}y= \int_{-\infty}^{\infty}\left( f(x,t)-y\frac{\partial f}{\partial x}+\frac{y^2}{2}\frac{\partial^2 f}{\partial x^2}+o(y^2) \right)\rho(\tau,y)\mathrm{d}y \end{equation}\]Note:对右边的这种展开方式实际上理论上并不太严谨。因为积分变量 $y$ 是从 $-\infty$ 到 $+\infty$,而这个展开只有当 $y$ 比较小的时候才是成立的。
然而,爱因斯坦还是采用了这种方式,并且理论推导的结果和实验观察高度一致。
我们舍去两边的高阶无穷小,公式 \eqref{eq:diffusion-integral} 就变成了:
\[\begin{equation} f(x,t)+\tau\frac{\partial f}{\partial t}=\int_{-\infty}^{\infty}\left( f(x,t)-y\frac{\partial f}{\partial x}+\frac{y^2}{2}\frac{\partial^2 f}{\partial x^2} \right)\rho(\tau,y)\mathrm{d}y \label{eq:diffusion-integral-2} \end{equation}\]尽管在1905年,概率论的发展还基本没有起步,但爱因斯坦敏锐的提出,这里的 $\rho(\tau,y)$ 可以看作是某种概率密度。因为 $\rho(\tau,y)$ 是在时间 $\tau$ 内,从位置 $x-y$ 运动到位置 $x$ 的粒子数量的比例,爱因斯坦认为,这种比例应当能够被归一化,也就是某种概率密度:
\[\begin{equation} \int_{-\infty}^{\infty}\rho(\tau,y)\mathrm{d}y=1 \end{equation}\]并且这个密度是关于 $y=0$ 对称的,即:
\[\begin{equation} \int_{-\infty}^{\infty}y\rho(\tau,y)\mathrm{d}y=0 \end{equation}\]同时,其“方差”也可以被认为是一个常数 $D^2$:
\[\begin{equation} \int_{-\infty}^{\infty}y^2\rho(\tau,y)\mathrm{d}y=D^2 \end{equation}\]有了上述的条件,我们再代入公式 \eqref{eq:diffusion-integral-2},就可以得到:
\[\begin{equation} f(x,t)+\tau\frac{\partial f}{\partial t}=f(x,t)+\frac{D^2}{2}\frac{\partial^2 f}{\partial x^2} \end{equation}\]我们就得到了大名鼎鼎的扩散方程 (diffusion equation):
\[\begin{equation} \tau\frac{\partial f}{\partial t}=\frac{D^2}{2}\frac{\partial^2 f}{\partial x^2} \label{eq:diffusion-equation} \end{equation}\]扩散方程有下面的边界条件:$f(x,0)=\delta(x)$,表示在时间 $t=0$ 时,粒子数量分布是一个 delta 函数,即只有在位置 $x=0$ 处有粒子,其他位置的粒子数量都是 $0$。
这个方程的解形式为:
\[\begin{equation} f(x,t)=\frac{1}{\sqrt{2\pi D t}}\exp\left(-\frac{x^2}{2Dt}\right) \label{eq:diffusion-solution} \end{equation}\]其中 $D=D^2/\tau$。
这正好是一个高斯分布 $f(x,t)\sim\mathcal{N}(0,Dt)$。
二、信息论
一个随机变量 $X$ 的信息熵定义为:
\[\begin{equation} H(X)=-\int_{-\infty}^{\infty}f_X(x)\log f_X(x)\mathrm{d}x \end{equation}\]我们希望找到具有最大信息熵的随机变量 $X$。
为了更好地研究这个问题,我们分别在三种条件下对最大熵问题进行求解。
2.1. 无限区间上的最大熵
在无限区间的条件下,我们约定:
- 分布区间为 $(-\infty,+\infty)$。
- 均值为0: $E(X)=0$。
- 方差是一个常数 $\sigma^2$: $D(X)=\sigma^2$。
我们的优化问题为:
\[\begin{equation} \begin{aligned} &\max_f\left(-\int_{-\infty}^{\infty}f_X(x)\log f_X(x)\mathrm{d}x\right)\\ &\text{s.t.}\qquad \int_{-\infty}^{\infty}xf_X(x)\mathrm{d}x=0\\ &\qquad\quad\int_{-\infty}^{\infty}x^2f_X(x)\mathrm{d}x=\sigma^2\\ \end{aligned} \end{equation}\]这是一个泛函优化的问题,我们需要用到变分法 (variational method) 来求解。变分法最早来自于欧拉,是科学工程领域的一种基本方法。
我们记目标函数为 $H(f)$,假设最优解为 $f_{\ast}=\arg\max_fH(f)$,则我们构造新函数 $G(t)$:
\[\begin{equation} G(t)=H(f_{\ast}+tg) \end{equation}\]其中,$t$ 是一个实数而非函数,$g$ 是任取的关于 $x$ 的函数。
显然,由于 $f_{\ast}$ 是 $H(f)$ 的最优解,因此对 $f$ 进行任何的扰动都会去到一个较小的值。也就是说,$G(t)$ 在 $t=0$ 取得最大值:$G(t)\le G(0)$,即 $G’(0)=0$。
具体到我们这个问题中,$G(t)$ 的表达式为:
\[\begin{equation} G(t)=\int_{-\infty}^{\infty}(f_{\ast}+tg)\log (f_{\ast}+tg)\mathrm{d}x \end{equation}\]由于有约束条件,我们就需要用拉格朗日函数:
\[\begin{equation} \begin{aligned} L(t;\lambda_1,\lambda_2) &= \int_{-\infty}^{\infty}(f_{\ast}+tg)\log (f_{\ast}+tg)\mathrm{d}x -\lambda_1\int_{-\infty}^{\infty}x(f_{\ast}+tg)\mathrm{d}x\\ &\qquad-\lambda_2\left(\int_{-\infty}^{\infty}x^2(f_{\ast}+tg)\mathrm{d}x-\sigma^2\right) \end{aligned} \end{equation}\]对 $t$ 求导得:
\[\begin{equation} \begin{aligned} \frac{\mathrm{d}}{\mathrm{d}t}L(t;\lambda_1,\lambda_2) &=\int_{-\infty}^{\infty}g\log (f_{\ast}+tg)\mathrm{d}x+\int_{-\infty}^{\infty}g\mathrm{d}x-\lambda_1\int_{-\infty}^{\infty}xg\mathrm{d}x-\lambda_2\int_{-\infty}^{\infty}x^2g\mathrm{d}x\\ &=\int_{-\infty}^{\infty}g\left( \log (f_{\ast}+tg)+1-\lambda_1x-\lambda_2x^2 \right)\mathrm{d}x \end{aligned} \end{equation}\]由于 $t=0$ 是一个驻点,因此上式在 $t=0$ 时等于0,即:
\[\begin{equation} \begin{aligned} \left.\frac{\mathrm{d}}{\mathrm{d}t}L(t;\lambda_1,\lambda_2)\right|_{t=0} &=\int_{-\infty}^{\infty}g\left( \log f_{\ast}+1-\lambda_1x-\lambda_2x^2 \right)\mathrm{d}x\\ &=0 \end{aligned} \end{equation}\]由于 $g$ 的任意性,说明:
\[\begin{equation} \log f_{\ast}+1-\lambda_1x-\lambda_2x^2=0 \end{equation}\]因此,
\[\begin{equation} f_{\ast}=\exp(\lambda_1x+\lambda_2x^2-1) \end{equation}\]我们已经看到了最优解 $f_{\ast}$ 是一个指数二次型函数,这是一个高斯分布的典型特征。
综上所述,在无限区间的条件下,最大熵分布是一个高斯分布 $f(x)\sim\mathcal{N}(0,\sigma^2)$。
2.2. 半无限区间上的最大熵
在半无限区间的条件下,我们约定:
- 分布区间为 $[0,+\infty)$。
- 均值是一个常数 $\mu$: $E(X)=\mu$。
在这个条件下,总体的方法和上面是基本相同的,我们也要使用变分法来求解。
只是拉格朗日函数中少了一个约束,此时变为:
\[\begin{equation} \begin{aligned} L(t;\lambda) &= \int_{0}^{\infty}(f_{\ast}+tg)\log (f_{\ast}+tg)\mathrm{d}x -\lambda\left(\int_{0}^{\infty}x(f_{\ast}+tg)\mathrm{d}x-\mu\right) \end{aligned} \end{equation}\]求导之后我们得到:
\[\begin{equation} \begin{aligned} \left.\frac{\mathrm{d}}{\mathrm{d}t}L(t;\lambda)\right|_{t=0} &=\left.\int_{0}^{\infty}g\log (f_{\ast}+tg)\mathrm{d}x\right|_{t=0}+\int_{0}^{\infty}g\mathrm{d}x-\lambda\int_{0}^{\infty}xg\mathrm{d}x\\ &=\int_{0}^{\infty}g\left( \log f_{\ast}+1-\lambda x \right)\mathrm{d}x\\ &=0 \end{aligned} \end{equation}\]由于 $g$ 是任意的,因此:
\[\begin{equation} \begin{aligned} \log f_{\ast}+1-\lambda x&=0\\ f_{\ast}&=\exp(\lambda x-1) \end{aligned} \end{equation}\]这表示在半无限区间上,最大熵分布是一个指数函数 $f(x)\sim\exp(-\lambda x)$。
2.3. 有限区间上的最大熵
在有限区间的条件下,我们约定:
- 分布区间为 $[a,b]$。
由于没有约束条件,因此我们可以直接对 $G(t)$ 求导,得到:
\[\begin{equation} \begin{aligned} \left.\frac{\mathrm{d}}{\mathrm{d}t}G(t)\right|_{t=0} &=\left.\int_{a}^{b}g\log (f_{\ast}+tg)\mathrm{d}x\right|_{t=0}+\int_{a}^{b}g\mathrm{d}x\\ &=\int_{a}^{b}g\left( \log f_{\ast}+1 \right)\mathrm{d}x\\ &=0 \end{aligned} \end{equation}\]因此,在有限区间上,最大熵分布是一个均匀分布 $f(x)\sim\mathrm{U}[a,b]$。
三、随机变量之和的渐近行为分析
3.1. 中心极限定理
中心极限定理 (Central Limit Theorem, CLT) 是概率论中一个非常重要的定理,其内容如下:
设 $X_1,X_2,\dots,X_n$ 是一组均值为0、方差为1,且 i.i.d. 的随机变量。考虑随机变量:
\[\begin{equation} Y=\frac{1}{\sqrt{n}}\sum_{k=1}^{n}X_k \end{equation}\]当 $n\to\infty$ 时,无论 $X_1,X_2,\dots,X_n$ 是什么分布,$Y$ 都趋向于服从标准正态分布 $\mathcal{N}(0,1)$:
\[\begin{equation} \begin{aligned} \lim_{n\to\infty}Y &= \lim_{n\to\infty}\frac{1}{\sqrt{n}}\sum_{k=1}^{n}X_k\\ &\sim\mathcal{N}(0,1) \end{aligned} \label{eq:clt} \end{equation}\]Note:实际上,CLT不需要随机变量是 i.i.d. 的,也不需要均值为0、方差为1。我们这里只是为了方便证明,加上了这些形式。
下面,我们来证明中心极限定理。证明需要用到随机变量的特征函数,我们在附录1中介绍了特征函数的定义和用法,读者可以自行查阅。
考虑 $Y$ 的特征函数:
\[\begin{equation} \begin{aligned} \phi_Y(\omega) &=\mathbb{E}\left[ \exp(j\omega Y) \right]\\ &=\mathbb{E}\left[ \exp\left(j\omega \frac{1}{\sqrt{n}}\sum_{k=1}^{n}X_k\right) \right]\\ &=\mathbb{E}\left[ \prod_{k=1}^{n} \exp\left(j\omega \frac{X_k}{\sqrt{n}}\right) \right]\\ &\overset{\text{独立}}{=} \prod_{k=1}^{n} \mathbb{E}\left[ \exp\left(j\omega \frac{X_k}{\sqrt{n}}\right) \right]\\ &= \prod_{k=1}^{n} \phi_{X_k}\left(\frac{\omega}{\sqrt{n}}\right)\\ &\overset{\text{同分布}}{=} \left(\phi_{X_1}\left(\frac{\omega}{\sqrt{n}}\right)\right)^n \end{aligned} \end{equation}\]其中,
\[\begin{equation} \begin{aligned} \phi_{X_1}\left(\frac{\omega}{\sqrt{n}}\right) &=\mathbb{E}\left[ \exp\left(j \frac{\omega}{\sqrt{n}} X_1\right) \right]\\ &=\mathbb{E}\left[ 1+j \frac{\omega}{\sqrt{n}} X_1+ \frac{1}{2}\left(j \frac{\omega}{\sqrt{n}} X_1\right)^2 +O\left(\frac{1}{n}\right) \right]\\ &=1+j \frac{\omega}{\sqrt{n}}\underbrace{\mathbb{E}[X_1]}_{=0}- \frac{\omega^2}{2n}\underbrace{\mathbb{E}\left[X_1^2\right]}_{=Var[X_1]+\mathbb{E}[X_1]^2=1} +O\left(\frac{1}{n}\right)\\ &=1-\frac{\omega^2}{2n}+O\left(\frac{1}{n}\right)\\ \end{aligned} \end{equation}\]代回原式得:
\[\begin{equation} \phi_Y(\omega)=\left(1-\frac{\omega^2}{2n}+O\left(\frac{1}{n}\right)\right)^n \end{equation}\]令 $n\to\infty$:
\[\begin{equation} \begin{aligned} \lim_{n\to\infty}\phi_Y(\omega) &=\lim_{n\to\infty}\left(1-\frac{\omega^2}{2n}+O\left(\frac{1}{n}\right)\right)^n\\ &=\exp(-\frac{\omega^2}{2}) \end{aligned} \end{equation}\]由于概率密度是特征函数的傅里叶反变换,因此我们可以知道:
\[\begin{equation} \begin{aligned} \lim_{n\to\infty}f_Y(y) &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{y^2}{2})\\ &\sim\mathcal{N}(0,1) \end{aligned} \end{equation}\]中心极限定理得证。
3.2. 大数定理
大数定理 (Law of Large Numbers, LLN) 和中心极限定理都是研究大量随机变量所表现出的统计特性。
考虑一组 i.i.d. 的随机变量 $X_1,X_2,\dots,X_n$,我们有:
\[\begin{equation} \begin{aligned} \lim_{n\to\infty}Y &=\lim_{n\to\infty}\frac{1}{n}\sum_{k=1}^{n}X_k\\ &=\mathbb{E}[X_1] \end{aligned} \label{eq:lln} \end{equation}\]也就是说当 $n$ 足够大时,$Y$ 的随机性会完全消失,变为一个确定的数 $\mathbb{E}[X_1]$。
用特征函数同样也能非常方便地证明大数定理。考虑 $Y$ 的特征函数:
\[\begin{equation} \begin{aligned} \phi_Y(\omega) &=\mathbb{E}\left[ \exp(j\omega Y) \right]\\ &=\mathbb{E}\left[ \exp\left(j\omega \frac{1}{n}\sum_{k=1}^{n}X_k\right) \right]\\ &= \prod_{k=1}^{n} \mathbb{E}\left[ \exp\left(j\omega \frac{X_k}{n}\right) \right]\\ &= \prod_{k=1}^{n} \phi_{X_k}\left(\frac{\omega}{n}\right)\\ &= \left(\phi_{X_1}\left(\frac{\omega}{n}\right)\right)^n \end{aligned} \end{equation}\]其中,
\[\begin{equation} \begin{aligned} \phi_{X_1}\left(\frac{\omega}{n}\right) &=\mathbb{E}\left[ \exp\left(j \frac{\omega}{n} X_1\right) \right]\\ &=\mathbb{E}\left[ 1+j \frac{\omega}{n} X_1 +O\left(\frac{1}{n}\right) \right]\\ &=1+j \frac{\omega}{n}\mathbb{E}[X_1] +O\left(\frac{1}{n}\right)\\ \end{aligned} \end{equation}\]代回原式得:
\[\begin{equation} \phi_Y(\omega)=\left(1+j \frac{\omega}{n}\mathbb{E}[X_1]+O\left(\frac{1}{n}\right)\right)^n \end{equation}\]令 $n\to\infty$:
\[\begin{equation} \begin{aligned} \lim_{n\to\infty}\phi_Y(\omega) &=\lim_{n\to\infty}\left(1+j \frac{\omega}{n}\mathbb{E}[X_1]+O\left(\frac{1}{n}\right)\right)^n\\ &=\exp(j\omega\mathbb{E}[X_1]) \end{aligned} \end{equation}\]因此,我们就得到结论:
\[\begin{equation} \lim_{n\to\infty}f_Y(y)=\mathbb{E}[X_1] \end{equation}\]3.3. 重对数律 (Kolmogorov)
对比CLT \eqref{eq:clt} 和LLN \eqref{eq:lln},我们可以发现仅仅是归一化因子的不同,二者的结论就会存在很大的差别。
- 在CLT中,我们用 $\sqrt{n}$ 对随机变量之和进行归一化,此时大量随机变量所表现出的复杂随机性会限制为一个高斯分布。
- 在LLN中,我们用 $n$ 对随机变量之和进行归一化,此时随机性会被完全消除,变为一个常数。
更进一步地,我们希望对这个归一化因子的约束力度有一些更深刻的理解:在什么临界情况下,随机变量之和的随机性会刚好被消除?
重对数律 (Law of the Iterated Logarithm) 就是这个问题的一个深刻的解答。设 $X_1,X_2,\dots,X_n$ 是一组均值为0、方差为 $\sigma^2$,且 i.i.d. 的随机变量,重对数律断言:
\[\begin{equation} \limsup_{n\to\infty}\frac{1}{\sqrt{2\sigma^2n\ln\ln n}} \sum_{k=1}^{n}X_k=1 \end{equation}\]和
\[\begin{equation} \liminf_{n\to\infty}\frac{1}{\sqrt{2\sigma^2n\ln\ln n}} \sum_{k=1}^{n}X_k=-1 \end{equation}\]以概率1成立。
也就是说,使得随机变量之和的随机性完全消除的临界约束为 $\sqrt{n\ln\ln n}$。
四、一维对称随机游动
随机游动 (random walk) 是随机过程中的一个重要话题。现在我们先考虑最简单的情况:一维对称随机游动。
假设我们把一维空间分为多个小格点,每个小格点的长度都是 $\Delta x$。
考虑随机过程:
\[\begin{equation} X(t)=\sum_{k=1}^{n} X_k \end{equation}\]其中,$n=t/\Delta t$。$X_k$ 服从两点分布:
\[\begin{equation} X_k\sim \begin{pmatrix} \Delta x&-\Delta x\\\frac{1}{2}&\frac{1}{2} \end{pmatrix} \end{equation}\]从上式可以看到,$X_k$ 只能往两个方向移动,因此是一维的。又因为往左和往右是等概率的,因此是对称的。
我们希望研究当 $\Delta t\to 0$ 且 $\Delta x\to 0$ 时,在某一个时间 $t$ 上随机变量 $X(t)$ 的分布。
这里可以看到,由于我们研究的是多个随机变量之和的行为,因此我们自然想到可以借用中心极限定理 \eqref{eq:clt} 来研究这个问题。
但是CLT是有应用条件的,它要求随机变量独立同分布,且均值为0方差为1。
在我们这个问题中,独立同分布是可以满足的,$X_k$ 显然是 i.i.d. 的。均值为0也可以满足,因为 $X_k$ 以等概率取 $\Delta x$ 或 $-\Delta x$。
但方差没办法满足。事实上:
\[\begin{equation} \begin{aligned} Var[X_k] &=\mathbb{E}[X_k^2]-\mathbb{E}[X_k]^2\\ &=\frac{1}{2}\Delta x^2+\frac{1}{2}(-\Delta x)^2-0\\ &=\Delta x^2 \end{aligned} \end{equation}\]因此我们要对 $X_k$ 进行归一化,让它符合中心极限定理的形式:
\[\begin{equation} \begin{aligned} X(t) &=\sum_{k=1}^{n} X_k\\ &= \Delta x\cdot\sqrt{n}\cdot\frac{1}{\sqrt{n}}\sum_{k=1}^{n} \frac{X_k}{\Delta x}\\ &= \Delta x\cdot\sqrt{\frac{t}{\Delta t}} \cdot\frac{1}{\sqrt{n}}\sum_{k=1}^{n} \frac{X_k}{\Delta x}\\ &= \sqrt{t}\cdot\sqrt{\frac{\Delta x^2}{\Delta t}} \cdot\frac{1}{\sqrt{n}}\sum_{k=1}^{n} \frac{X_k}{\Delta x}\\ \end{aligned} \end{equation}\]我们在保持 $\Delta x^2/\Delta t=D$ 的前提下同时令 $\Delta t\to 0$,$\Delta x\to 0$。此时,
\[\begin{equation} \begin{aligned} \lim_{(\Delta t,\Delta x)\to (0,0)} X(t) &\sim \sqrt{Dt}\cdot\mathcal{N}(0,1)\\ &\sim \mathcal{N}(0,Dt) \end{aligned} \end{equation}\]因此,一维对称随机游动也服从高斯分布。
此外我们还能看到,这个结果和第一节中扩散过程的结果 \eqref{eq:diffusion-solution} 是一致的。扩散过程可以看作是一个宏观的统计结果,而随机游动则是一个微观的随机过程。因此,我们就能看到高斯分布在各种各样的情况中都广泛存在。
Appendix
Apd.1. 特征函数
对于一个随机变量 $X$,其特征函数 (characteristic function) 的定义为:
\[\begin{equation} \phi_X(\omega):=\mathbb{E}\left[ \exp(j\omega X) \right] \label{eq:char-func-def} \end{equation}\]因此,我们可以进一步展开得:
\[\begin{equation} \begin{aligned} \phi_X(\omega) &=\mathbb{E}\left[ \exp(j\omega X) \right]\\ &=\int_{-\infty}^{\infty} \exp(j\omega X)f_X(x) \mathrm{d}x \end{aligned} \end{equation}\]也就是说,概率密度 $f_X(x)$ 和特征函数 $\phi_X(\omega)$ 是一个傅里叶变换对。又由于 $f_X(x)\ge 0$,根据Bochner定理,我们立马能够知道 $\phi_X(\omega)$ 是一个正定函数。
特征函数特别适合用来分析随机变量之和,我们用下面这个例子来展示特征函数的用处。
对两个独立随机变量 $X_1\sim f_{X_1}(x),X_2\sim f_{X_2}(x)$,则这两个随机变量之和 $X=X_1+X_2$ 的概率密度就是这两者概率密度的卷积:$X\sim (f_1\circledast f_2)(x)$。
纯概率论的证明
考虑 $X$ 的累积分布函数:
\[\begin{equation} \begin{aligned} F_X(x) &=P(X\le x)\\ &=P(X_1+X_2\le x)\\ &=\int_{-\infty}^{\infty} P(X_1+x_2\le x\mid X_2=x_2) f_{X_2}(x_2) \mathrm{d}x_2 \end{aligned} \end{equation}\]由于 $X_1$ 和 $X_2$ 相互独立,因此这个条件可以忽略:
\[\begin{equation} \begin{aligned} F_X(x) &=\int_{-\infty}^{\infty} P(X_1\le x-x_2) f_{X_2}(x_2) \mathrm{d}x_2\\ &= \int_{-\infty}^{\infty} F_{X_1}(x-x_2) f_{X_2}(x_2) \mathrm{d}x_2\\ \end{aligned} \end{equation}\]因此,$X$ 的概率密度函数为:
\[\begin{equation} \begin{aligned} f_X(x) &=\frac{\mathrm{d}}{\mathrm{d}x}F_X(x)\\ &=\int_{-\infty}^{\infty} f_{X_1}(x-x_2) f_{X_2}(x_2) \mathrm{d}x_2\\ &=(f_1\circledast f_2)(x) \end{aligned} \end{equation}\]利用特征函数的证明
考虑 $X$ 的特征函数:
\[\begin{equation} \begin{aligned} \phi_X(\omega) &=\mathbb{E}\left[ \exp(j\omega X) \right]\\ &=\mathbb{E}\left[ \exp(j\omega (X_1+X_2)) \right]\\ &=\mathbb{E}\left[ \exp(j\omega X_1) \right] \mathbb{E}\left[ \exp(j\omega X_2) \right]\\ &=\phi_{X_1}(\omega)\phi_{X_2}(\omega) \end{aligned} \end{equation}\]由于特征函数和概率密度是一个傅里叶变换对,而频域上相乘等于时域上卷积,因此我们非常轻易就能知道 $f_X(x)=(f_1\circledast f_2)(x)$。