高斯过程是一个连续时间、连续状态的随机过程。
一个随机过程 $X(t)$ 是高斯过程,当且仅当 $\forall n,\forall t_1,\dots,t_n$,随机向量
\[\begin{equation} X=(X(t_1),\dots,X(t_n))^T\sim \mathcal{N}(\mu,\Sigma) \end{equation}\]在本文中,我们对多元高斯分布 $\mathcal{N}(\mu,\Sigma)$ 进行详细的介绍。
一、概率密度函数
当 $n=1$ 时,$X$ 服从一个一维高斯分布 $\mathcal{N}(\mu,\sigma^2)$,其概率密度为:
\[\begin{equation} f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \end{equation}\]当 $n=2$ 时,$X=(X_1,X_2)^T$ 服从一个二维高斯分布 $\mathcal{N}(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho)$,其概率密度为:
\[\begin{equation} f_{X_1,X_2}(x_1,x_2)= \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left( -\frac{1}{2(1-\rho^2)} \left( \frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}-2\rho\frac{(x_1-\mu_1)}{\sigma_1}\frac{(x_2-\mu_2)}{\sigma_2} \right) \right) \end{equation}\]对于一个 $n$ 维高斯分布 $\mathcal{N}(\mu,\Sigma)$,其概率密度为:
\[\begin{equation} f_X(x)= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \label{eq:gaussian-pdf} \end{equation}\]其中,$\mu$ 称为均值,$\Sigma$ 称为协方差矩阵 (covariance matrix):
\[\begin{equation} \Sigma=\mathbb{E}\left[ (X-\mu)(X-\mu)^T \right] \end{equation}\]实际上这就是中心化之后的相关矩阵。
可以看到,高斯分布的密度函数有一个非常显著的特征:指数上方是一个二次型。
在附录1中,我们证明了公式 \eqref{eq:gaussian-pdf} 是一个概率密度函数。这个事情看起来没有什么用,但证明过程中所用到的积分技巧则是贯穿整个高斯过程的学习的。
二、特征函数
在上一篇文章中,我们介绍了随机向量的特征函数 (characteristic function),并用它来证明了中心极限定理以及大数定律。我们已经看到,特征函数非常适合用来处理多个随机变量之和。
现在,我们将特征函数扩展一下,考虑一个 $n$ 维随机向量的特征函数:
\[\begin{equation} \Phi_X(\omega)= \mathbb{E}\left[ \exp(j\omega^TX) \right] \end{equation}\]其中 $X,\omega\in\mathbb{R}^n$。
我们希望研究一下 $n$ 维高斯分布的特征函数:
\[\begin{equation} \begin{aligned} \Phi_X(\omega) &= \mathbb{E}\left[ \exp(j\omega^TX) \right]\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp(j\omega^Tx) \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \mathrm{d}x\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) +j\omega^Tx \right) \mathrm{d}x\\ \end{aligned} \end{equation}\]观察上面的式子我们不难发现,指数上方总共有两项:一个是二次型(平方项),一个是线性项。当一个平方项和一个线性项同时出现时,一个非常重要的积分技巧就是使用【配方】,将其配成一个新的平方以及一些和积分变量无关的常数项。这样一来,里面的积分又变成高斯的形式(指数上方二次型),整个式子就只剩下了前面的常数项。
我们首先用一维的形式来做一遍,后面再直接推广到 $n$ 维。我们只考虑指数上方的项:
\[\begin{equation} \begin{aligned} -\frac{1}{2\sigma^2}(x-\mu)^2+j\omega x &= -\frac{1}{2\sigma^2} \left( x^2-2(\mu+j\sigma^2w)x+\mu^2 \right)\\ &= -\frac{1}{2\sigma^2} \left( x^2-2(\mu+j\sigma^2w)x+(\mu+j\sigma^2w)^2 -2j\mu\sigma^2w+\sigma^4\omega^2 \right)\\ &= -\frac{1}{2\sigma^2} \left( x-\mu-j\sigma^2w \right)^2 +j\mu w -\frac{1}{2}\sigma^2\omega^2 \end{aligned} \end{equation}\]直接扩展到 $n$ 维:
\[\begin{equation} \begin{aligned} -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) +j\omega^Tx &= -\frac{1}{2} \left(x-\mu-j\Sigma w\right)^T\Sigma^{-1}\left(x-\mu-j\Sigma w\right)\\ &\qquad+ j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \end{aligned} \end{equation}\]代入特征函数得:
\[\begin{equation} \begin{aligned} \Phi_X(\omega) &= \exp\left( j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \right)\cdot\\ &\qquad\underbrace{ \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2} \left(x-\mu-j\Sigma w\right)^T\Sigma^{-1}\left(x-\mu-j\Sigma w\right) \right) \mathrm{d}x}_{=1}\\ &=\exp\left( j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \right) \end{aligned} \label{eq:gaussian-char} \end{equation}\]特别的,当 $n=1$ 时,$X\sim\mathcal{N}(\mu,\sigma^2)$ 的特征函数的形式为:
\[\begin{equation} \Phi_X(\omega)= \exp\left( j\mu\omega -\frac{1}{2}\sigma^2\omega^2 \right) \end{equation}\]三、线性性
多元高斯分布最重要的性质是线性性 (linearity)。线性性表明,多个高斯随机变量的任意线性组合仍然是一个高斯随机变量。
考虑 $n$ 维随机变量 $X\sim\mathcal{N}(\mu,\Sigma)\in\mathbb{R}^n$,对于任意的矩阵 $A\in\mathbb{R}^{m\times n}$,我们有:
\[\begin{equation} Y=AX\sim\mathcal{N}(A\mu,A\Sigma A^T) \end{equation}\]注意这里的变换矩阵 $A$ 甚至不需要是个方阵。我们比较熟悉的是处理维度相同的两个随机变量之间的关系,但这里的 $Y$ 和 $X$ 维度不同,利用一般的概率论方法根本无法处理。此时,我们需要利用特征函数来处理。
考虑 $Y$ 的特征函数:
\[\begin{equation} \begin{aligned} \Phi_Y(\omega) &= \mathbb{E}\left[ \exp(j\omega^TY) \right]\\ &= \mathbb{E}\left[ \exp(j\omega^TAX) \right]\\ &= \mathbb{E}\left[ \exp(j(A^T\omega)^TX) \right]\\ \end{aligned} \end{equation}\]这就相当于 $X$ 的特征函数在 $A^T\omega$ 上的取值,即:
\[\begin{equation} \begin{aligned} \Phi_Y(\omega) &= \Phi_X(A^T\omega)\\ &= \exp\left( j\omega^TA\mu -\frac{1}{2}\omega^TA\Sigma A^T\omega \right)\\ \end{aligned} \end{equation}\]对比高斯分布的特征函数 \eqref{eq:gaussian-char},我们立刻可以发现 $Y$ 也是一个高斯分布,其均值为 $A\mu$,协方差为 $A\Sigma A^T$。
Note: 我们可以通过对比特征函数的形式来确定 $Y$ 的分布,这是因为特征函数和概率密度是一一对应的,前面我们已经证明了特征函数是概率密度的傅里叶变换。这个定理称为 Levy Inversion Theorem。
四、边缘分布与联合分布的高斯性
4.1. 联合高斯一定有边缘高斯
利用高斯分布的线性性,我们可以快速证明:高斯分布的任意边缘分布还是高斯分布。
设 $( X_1,\dots,X_n)^T$ 服从高斯分布,从其中任取 $k$ 个下标 $\lbrace n_1,\dots,n_k\rbrace\subseteq \lbrack n\rbrack$,则边缘分布 $( X_{n_1},\dots,X_{n_k})^T$ 也服从高斯分布。
这是因为:
\[\begin{equation} \begin{pmatrix} X_{n_1}\\ \vdots \\ X_{n_k} \end{pmatrix} = \begin{pmatrix} e_{n_1}^T\\ \vdots \\ e_{n_k}^T \end{pmatrix} \begin{pmatrix} X_1\\ \vdots \\ X_n \end{pmatrix} \end{equation}\]其中,$e_{n_i}\in\mathbb{R}^n$ 是一个 $n$ 维单位向量,其第 $n_i$ 个元素为 $1$,其他元素为 $0$。
4.2. 反过来成立吗?
这个结论反过来是不成立的。即任意边缘分布都是高斯分布,联合分布也不一定是高斯分布。
考虑下面的反例。设两个随机变量 $(X_1,X_2)$,其联合分布为:
\[\begin{equation} f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right) + C(x_1,x_2) \end{equation}\]其中,$C(x_1,x_2)$ 满足:
\[\begin{equation} \int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_1=\int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_2=0 \end{equation}\]可以发现,两个边缘分布都是高斯:
\[\begin{equation} \begin{aligned} f_{X_1}(x_1) &= \int_{\mathbb{R}}f_{X_1,X_2}(x_1,x_2)\mathrm{d}x_2\\ &= \int_{\mathbb{R}}\frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right)\mathrm{d}x_2 +\int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_2\\ &= \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x_1^2}{2}\right)\\ f_{X_2}(x_2) &= \int_{\mathbb{R}}f_{X_1,X_2}(x_1,x_2)\mathrm{d}x_1\\ &= \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x_2^2}{2}\right)\\ \end{aligned} \end{equation}\]但联合分布并不是一个高斯分布。
对于 $C(x_1,x_2)$ 的取值,我们可以取 $C(x_1,x_2)=x_1x_2\exp(-x_1^2-x_2^2)$。但这样子可能会导致 $f_{X_1,X_2}(x_1,x_2)$ 不是一个概率密度函数,因为其积分值不是 $1$。此时只需要一些小修改即可:
\[\begin{equation} f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right) + (1+x_1x_2\exp(-(x_1^2+x_2^2))) \end{equation}\]4.3. 什么条件下二者等价?
那么,在什么条件下,边缘分布的高斯性能够确保联合分布的高斯性呢?
我们下面给出两个充分条件,满足任意一个都可以确保联合分布是高斯分布。
Corollary 1. 若 $X_1,\dots,X_n$ 是相互独立的高斯随机变量:$X_k\sim\mathcal{N}(\mu_k,\sigma_k^2)$,则 $(X_1,\dots,X_n)^T\sim\mathcal{N}(\mu,\Sigma)$,其中:
\[\begin{equation} \begin{aligned} \mu&=(\mu_1,\dots,\mu_n)^T\\ \Sigma&=\text{diag}(\sigma_1^2,\dots,\sigma_n^2)\\ \end{aligned} \end{equation}\]Corollary 2. 任意线性组合都是高斯,则联合分布一定是高斯
\[\begin{equation} X=(X_1,\dots,X_n)^T\sim\mathcal{N} \iff \forall \alpha\in\mathbb{R}^n, \alpha^T X\sim\mathcal{N} \end{equation}\]必要性是显然的,这是高斯分布的线性性所保证的。
下面我们来证明充分性。
任取 $\alpha\in\mathbb{R}^n$,考虑 $\alpha^T X\sim\mathcal{N}(\mu,\sigma^2)$ 的特征函数:
\[\begin{equation} \begin{aligned} \Phi_{\alpha^T X}(\omega) &= \mathbb{E}\left[ \exp\left(j(\alpha^T X)\omega\right) \right]\\ &= \exp\left( j\omega\mu -\frac{1}{2}\omega^2\sigma^2 \right) \end{aligned} \end{equation}\]因此,我们可以写出 $X$ 的特征函数:
\[\begin{equation} \begin{aligned} \Phi_X(\alpha) &:= \mathbb{E}\left[ \exp\left(j\alpha^TX\right) \right]\\ &=\Phi_{\alpha^T X}(1)\\ &=\exp\left( j\mu -\frac{1}{2}\sigma^2 \right) \end{aligned} \end{equation}\]其中,
\[\begin{equation} \begin{aligned} \mu &= \mathbb{E}\left[\alpha^TX\right] = \alpha^T\mu_X\\ \sigma^2 &= \mathbb{E}\left[ \left(\alpha^TX-\alpha^T\mu_X\right) \left(\alpha^TX-\alpha^T\mu_X\right)^T \right]\\ &= \alpha^T\mathbb{E}\left[ \left(X-\mu_X\right) \left(X-\mu_X\right)^T \right]\alpha\\ &= \alpha^T\Sigma_X\alpha\\ \end{aligned} \end{equation}\]$\mu_X$ 和 $\Sigma_X$ 分别是 $X$ 的均值和协方差矩阵。
代入 $X$ 的特征函数得:
\[\begin{equation} \begin{aligned} \Phi_X(\alpha) &=\exp\left( j\alpha^T\mu_X -\frac{1}{2}\alpha^T\Sigma_X\alpha \right) \end{aligned} \end{equation}\]对比高斯分布的特征函数 \eqref{eq:gaussian-char},我们可以发现 $X$ 的确是服从高斯分布 $\mathcal{N}(\mu_X,\Sigma_X)$,得证。
五、高斯分布下的样本均值和样本方差
我们已经知道,对于 $n$ 个 i.i.d. 的随机变量 $X_1,\dots,X_n$,我们可以定义其样本均值和样本方差分别为:
\[\begin{equation} \begin{aligned} \overline{X} &= \frac{1}{n}\sum_{k=1}^n X_k\\ \overline{S} &= \frac{1}{n-1}\sum_{k=1}^n \left(X_k-\overline{X}\right)^2\\ \end{aligned} \end{equation}\]其中,这二者都是无偏的,即 $\mathbb{E}\left[\overline{X}\right]=\mu_X$ 和 $\mathbb{E}\left[\overline{S}\right]=\sigma^2_X$。
当我们进一步假设随机变量服从高斯分布 $X_1,\dots,X_n\sim\mathcal{N}(\mu,\sigma^2)$,我们能够得到更多的结论。下面的Cochran定理就是一个重要的结论:
Theorem (Cochran). 设 $X=(X_1,\dots,X_n)^T\sim \mathcal{N}(\mu,\sigma^2I)$,则 $\overline{X}$ 和 $\overline{S}$ 是独立的。
下面我们来证明这一点。忽略样本方差中的常数项,我们有:
\[\begin{equation} \begin{aligned} (n-1)\overline{S} &= \frac{1}{n-1}\sum_{k=1}^n \left(X_k-\overline{X}\right)^2\\ &= \sum_{k=1}^n X_k^2 -2\cdot\overline{X}\cdot\underbrace{\sum_{k=1}^n X_k}_{n\overline{X}} +n\cdot\overline{X}^2\\ &= \sum_{k=1}^n X_k^2 -n\cdot\overline{X}^2\\ &= \sum_{k=1}^n X_k^2 -\left(\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k\right)^2 \end{aligned} \end{equation}\]为了消除上面式子中的第二项,我们希望找到一个线性变换 $Y=AX$,使得:
\[\begin{equation} \begin{aligned} \sum_{k=1}^n X_k^2&=\sum_{k=1}^n Y_k^2\\ \frac{1}{\sqrt{n}}\sum_{k=1}^n X_k&=Y_1 \end{aligned} \end{equation}\]事实上,这个矩阵 $A$ 不难构造。
我们只需要令 $A$ 的第一行全部为 $\frac{1}{\sqrt{n}}$,就能够满足第二个条件。而第一个条件意味着 $A$ 是一个正交矩阵(正交变换不改变长度),因此我们只需要构造 $A$ 剩下的行,使其变为正交矩阵。比如说,其中一种构造结果是:
\[\begin{equation} \begin{aligned} A_{1,j}&=\frac{1}{\sqrt{n}}\\ A_{i,j}&= \begin{cases} \frac{1}{\sqrt{i(i-1)}},&j\lt i\\ -\frac{i-1}{\sqrt{i(i-1)}},&j= i\\ 0,&j\gt i\\ \end{cases} \end{aligned} \end{equation}\]由于 $X\sim\mathcal{N}(\mu,\sigma^2I)$,根据高斯分布的线性性,我们立马能够知道 $Y\sim\mathcal{N}(A\mu,A\sigma^2IA^T)=\mathcal{N}(A\mu,\sigma^2I)$。也就是说,$Y_1,\dots,Y_n$ 也是独立的(方差是对角矩阵)。
这样一来,我们就有:
\[\begin{equation} \begin{aligned} (n-1)\overline{S} &= \sum_{k=1}^n Y_k^2-Y_1^2\\ &= \sum_{k=2}^n Y_k^2 \end{aligned} \end{equation}\]因此,样本方差与 $Y_1$ 是无关的,由于 $Y_1$ 恰好就是样本均值,因此我们证明了高斯分布下的样本均值和样本方差是独立的。
从这里也能看出为什么样本方差的分母是 $n-1$。虽然定义是 $n$ 个随机变量相加,但这些随机变量都是具有相关性的,真正无关的就只有 $n-1$ 个自由度。
六、条件高斯分布
考虑随机变量 $X=(X_1,X_2)^T\in\mathbb{R}^{m\times(n_1+n_2)}$,其中 $X_1\in\mathbb{R}^{m\times n_1}$ 和 $X_2\in\mathbb{R}^{m\times n_2}$。
若 $X\sim\mathcal{N}(\mu,\Sigma)$,其中:
\[\begin{equation} \begin{aligned} \mu&= \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}\\ \Sigma&= \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \end{aligned} \end{equation}\]分别对应 $X_1$ 和 $X_2$ 的均值与协方差矩阵。注意 $\Sigma_{11}^T=\Sigma_{11},\Sigma_{22}^T=\Sigma_{22}$,而 $\Sigma_{12}^T=\Sigma_{21}$。
6.1. 条件分布的概率密度函数
我们希望研究条件分布 $X_1\mid X_2$ 的高斯性。考虑这个条件分布的概率密度函数:
\[\begin{equation} \begin{aligned} f_{X_1\mid X_2}(x_1\mid x_2) &= \frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_2}(x_2)}\\ &= C \frac{ \exp\left( -\frac{1}{2} \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix} \right) } { \exp\left( -\frac{1}{2} \left( x_2^T-\mu_2^T \right) \Sigma_{22}^{-1} \left( x_2-\mu_2 \right) \right) } \end{aligned} \label{eq:gaussian-cond-1} \end{equation}\]6.1.1. 协方差矩阵分块对角化
和前面的方法类似,我们需要将两个指数项相减之后,试图配方来得到一个新的二次型,以此来分析其高斯性。但这里是一个高维的配方,比较复杂。问题主要集中在协方差矩阵的逆上。当我们对矩阵求逆之后,它的形式就会变得非常复杂,导致配方的难度较大。
为此,我们的想法是对协方差矩阵进行分块对角化,把非对角线矩阵全部变为0,并保留 $\Sigma_{22}$ 不变。这样一来就能与分母直接抵消,大大降低复杂度。
事实上,由于
\[\begin{equation} \begin{aligned} &\quad \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &= \begin{pmatrix} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}&0\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &= \begin{pmatrix} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}&0\\ 0&\Sigma_{22} \end{pmatrix} \end{aligned} \end{equation}\]因此:
\[\begin{equation} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} = \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix} \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix} \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \end{equation}\]6.1.2. 对分子进行配方
至此,我们就可以写出公式 \eqref{eq:gaussian-cond-1} 中的分子:
\[\begin{equation} \begin{aligned} &\quad \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &= \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &\quad \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix}\\ &\quad \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &= \begin{pmatrix} x_1^T-\mu_1^T-\left(x_2^T-\mu_2^T\right)\Sigma_{22}^{-1}\Sigma_{21} &x_2^T-\mu_2^T \end{pmatrix}\\ &\quad \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix}\\ &\quad \begin{pmatrix} x_1-\mu_1-\Sigma_{22}^{-1}\Sigma_{21}\left(x_2-\mu_2\right)\\ x_2-\mu_2 \end{pmatrix}\\ &= \left( x_1^T-\mu_1^T-\left(x_2^T-\mu_2^T\right)\Sigma_{22}^{-1}\Sigma_{21} \right) \left( \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right)^{-1} \left( x_1-\mu_1-\Sigma_{22}^{-1}\Sigma_{21}\left(x_2-\mu_2\right) \right)\\ &\quad + \left( x_2^T-\mu_2^T \right) \Sigma_{22}^{-1} \left( x_2-\mu_2 \right) \end{aligned} \end{equation}\]我们注意到,分子正好是两个二次型相加(都是形如 $\alpha^TA\alpha$ 的形式),且第二个二次型正好就是公式 \eqref{eq:gaussian-cond-1} 中的分母,二者直接抵消,只剩下第一个二次型。这恰好证明了条件分布的高斯性。
6.1.3. 最终形式
观察上式中第一个二次型,由于我们研究的变量是 $x_1$,因此我们可以看出条件分布的均值为:
\[\begin{equation} \mathbb{E}[X_1\mid X_2] = \mu_1+\Sigma_{12}\Sigma_{22}^{-1}\left(X_2-\mu_2\right) \end{equation}\]协方差矩阵为:
\[\begin{equation} \Sigma_{X_1\mid X_2} = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \end{equation}\]至此,我们就可以写出条件分布概率密度 \eqref{eq:gaussian-cond-1} 的最终形式:
\[\begin{equation} \begin{aligned} f_{X_1\mid X_2}(x_1\mid x_2) &= \mathcal{N}\left( \mu_1+\Sigma_{12}\Sigma_{22}^{-1}\left(x_2-\mu_2\right), \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right) \end{aligned} \label{eq:gaussian-cond-2} \end{equation}\]6.2. 对条件期望的深入讨论
从公式 \eqref{eq:gaussian-cond-2} 中我们可以看到,条件分布的均值实际上是 $X_1$ 的均值 $\mu_1$ 加上一个修正项 $\Sigma_{12}\Sigma_{22}^{-1}\left(x_2-\mu_2\right)$。我们来解释一下这个修正项的含义。
我们用一维的形式来做解释:
\[\begin{equation} \mathbb{E}[X_1\mid X_2] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}\left(x_2-\mu_2\right) \end{equation}\]可以看到,分子是互相关,分母是自相关,这正好是一个投影的形式。这是因为 $X_1$ 在 $X_2$ 上的投影系数为:
\[\begin{equation} \begin{aligned} \beta &= \frac{\langle X_1-\mu_1,X_2- \mu_2\rangle}{\langle X_2-\mu_2,X_2- \mu_2\rangle}\\ &=\frac{\sigma_{21}}{\sigma_{22}} \end{aligned} \end{equation}\]因此,条件期望的均值实际上就是原来 $X_1$ 的均值 $\mu_1$ 加上条件 $X_2$ 的一些信息,这些信息就是变量 $X_1$ 投影到条件 $X_2$ 上的结果。
此外,在 前面的内容 中,我们证明了条件期望 $\mathbb{E}[X_1\mid X_2]$ 是均方距离意义下的最优估计(optimal estimator),即:
\[\begin{equation} \arg\min_{g\in\mathcal{G}} \mathbb{E}\left[X_1-g(X_2)\right]^2=\mathbb{E}[X_1\mid X_2] \end{equation}\]其中,$\mathcal{G}$ 是所有可测函数的集合。
同时,投影是均方距离意义下的最优线性估计 (optimal linear estimator),即:
\[\begin{equation} \arg\min_{g\in\mathcal{L}} \mathbb{E}\left[X_1-g(X_2)\right]^2=\mu_1+\frac{\sigma_{12}}{\sigma_{22}}\left(x_2-\mu_2\right) \end{equation}\]其中,$\mathcal{L}$ 是所有仿射函数的集合,即形如 $g(X_2)=a+bX_2$ 的函数。证明见 附录2。
因此,在高斯分布的条件下,最优估计就是最优线性估计,这二者是等价的。这是高斯分布所独有的性质,线性的就是最好的。
6.3. 对条件协方差的深入讨论
我们同样对条件协方差 $\Sigma_{X_1\mid X_2}$ 进行一些讨论:
\[\begin{equation} \Sigma_{X_1\mid X_2} = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \end{equation}\]同样的,这个条件协方差也是在原来的协方差矩阵 $\Sigma_{11}$ 上减去一个修正项 $\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$。
直观上,当我们增加了条件 $X_2$ 之后,协方差应当变小。这是因为条件相当于引入了先验知识 $X_2$,就会使得随机变量的随机性变小,因此协方差也应变小。
我们可以证明这一点。为了表示一个协方差矩阵是变大还是变小,我们来分析其半正定性。
容易看出,$\Sigma_{11}$ 和 $\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ 都是半正定的,而二者相减后仍然是半正定的。我们考虑一维情况:$\sigma_{11}-\sigma_{12}^2/\sigma_{22}$,根据柯西不等式,这个一定非负。
这样一来,当我们减去修正项之后,我们就可以说协方差矩阵“变小”了。
Appendix
Apd.1. 证明 \eqref{eq:gaussian-pdf} 是概率密度函数
下面我们证明 $n$ 维高斯分布 $N(\mu,\Sigma)$ 的密度函数 \eqref{eq:gaussian-pdf} 是合法的。
因此,我们只需要证明两件事情:
- 非负性:$f_X(x)\ge 0$。
- 归一性:$\int_{\mathbb{R}^n}f_X(x)\mathrm{d}x=1$。
其中,非负性是显然的。因为协方差矩阵 $\Sigma$ 是半正定的,其行列式一定非负,因此 $f_X(x)$ 一定非负。
下面我们来证明归一性。
\[\begin{equation} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x = \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \mathrm{d}x \end{equation}\]这里问题的核心在于被积函数中的协方差矩阵 $\Sigma$。如果 $\Sigma$ 是一个对角阵,我们就能够这 $n$ 个积分变量解耦开来,变为 $n$ 个独立的一维高斯分布的乘积。
这是可以做到的。注意到协方差矩阵是一个对称且半正定的矩阵,因此我们可以对其进行特征值分解:
\[\begin{equation} \Sigma=U^T\Lambda U \end{equation}\]其中,$U$ 是一个正交矩阵,$\Lambda$ 是一个对角矩阵,其对角线上的元素就是 $\Sigma$ 的特征值。由于 $\Sigma$ 是半正定的,其特征值都是非负的,因此我们可以记:
\[\begin{equation} \Lambda=\text{diag}(\sigma_1^2,\dots,\sigma_n^2) \end{equation}\]此时,我们有:
\[\begin{equation} \begin{aligned} \Lambda^{-1}&=\text{diag}\left(\frac{1}{\sigma_1^2},\dots,\frac{1}{\sigma_n^2}\right)\\ \det\Sigma&=\prod_{k=1}^n\sigma_k^2 \end{aligned} \end{equation}\]下面我们进行积分换元。令 $y=U(x-\mu)$,因此 $x=U^Ty+\mu$。由于 $U$ 是正交矩阵,其行列式为 $\pm 1$,因此积分换元的雅可比为:
\[\begin{equation} \begin{aligned} \mathrm{d}x &= \vert\det J\vert\cdot \mathrm{d}y\\ &=\vert\det U^T\vert\cdot \mathrm{d}y\\ &=\mathrm{d}y \end{aligned} \end{equation}\]由此:
\[\begin{equation} \begin{aligned} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^TU\Lambda^{-1}U^T(x-\mu) \right) \mathrm{d}x\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}y^T\Lambda^{-1}y \right) \mathrm{d}y\\ &= \frac{1}{\left(\sqrt{2\pi}\right)^{n}\prod_{k=1}^n\sigma_k} \int_{\mathbb{R}^n} \exp\left( -\sum_{k=1}^n\frac{y_k^2}{2\sigma_k^2} \right) \mathrm{d}y\\ &= \prod_{k=1}^n \left( \frac{1}{\sqrt{2\pi}\sigma_k} \int_{-\infty}^{\infty} \exp\left( -\frac{y_k^2}{2\sigma_k^2} \right) \mathrm{d}y_k \right) \end{aligned} \end{equation}\]连乘中的每一项都是一个高斯分布 $\mathcal{N}(0,\sigma_k^2)$,因此其积分一定为1,因此:
\[\begin{equation} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x=1 \end{equation}\]得证。
Apd.2. 证明投影是均方距离意义下的最优线性估计
下面我们证明:
投影是均方距离意义下的最优线性估计,即优化问题
\[\begin{equation} \min_{a,b\in\mathbb{R}} \mathbb{E}\left[(X_1-(a+bX_2))^2\right] \end{equation}\]的最优解为:
\[\begin{equation} \begin{aligned} b&=\frac{\sigma_{12}}{\sigma_{22}}\\ a&=\mu_1-b\mu_2 \end{aligned} \end{equation}\]定义均方损失函数:
\[\begin{equation} \mathcal{J}=\mathbb{E}\left[(X_1-a-bX_2)^2\right] \end{equation}\]对 $a$ 求偏导得:
\[\begin{equation} \frac{\partial\mathcal{J}}{\partial a}=2\mathbb{E}\left[(X_1-a-bX_2)\right] \end{equation}\]令上式为0,解得:
\[\begin{equation} \mathbb{E}[X_1]-a-b\mathbb{E}[X_2]=0 \end{equation}\]即 $a=\mu_1-b\mu_2$。
代入 $\mathcal{J}$ 得:
\[\begin{equation} \begin{aligned} \mathcal{J}(b) &=\mathbb{E}\left[((X_1-\mu_1)-b(X_2-\mu_2))^2\right]\\ &=\sigma_{11}-2b\sigma_{12}+b^2\sigma_{22} \end{aligned} \end{equation}\]对 $b$ 求偏导得:
\[\begin{equation} \frac{\partial\mathcal{J}}{\partial b} = -2\sigma_{12}+2b\sigma_{22} \end{equation}\]令上式为0,解得:
\[\begin{equation} b=\frac{\sigma_{12}}{\sigma_{22}} \end{equation}\]得证。