随机过程(6)

高斯过程是一个连续时间、连续状态的随机过程。

一个随机过程 $X(t)$ 是高斯过程，当且仅当 $\forall n,\forall t_1,\dots,t_n$，随机向量

\[\begin{equation} X=(X(t_1),\dots,X(t_n))^T\sim \mathcal{N}(\mu,\Sigma) \end{equation}\]

在本文中，我们对多元高斯分布 $\mathcal{N}(\mu,\Sigma)$ 进行详细的介绍。

一、概率密度函数

当 $n=1$ 时，$X$ 服从一个一维高斯分布 $\mathcal{N}(\mu,\sigma^2)$，其概率密度为：

\[\begin{equation} f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \end{equation}\]

当 $n=2$ 时，$X=(X_1,X_2)^T$ 服从一个二维高斯分布 $\mathcal{N}(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho)$，其概率密度为：

\[\begin{equation} f_{X_1,X_2}(x_1,x_2)= \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left( -\frac{1}{2(1-\rho^2)} \left( \frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}-2\rho\frac{(x_1-\mu_1)}{\sigma_1}\frac{(x_2-\mu_2)}{\sigma_2} \right) \right) \end{equation}\]

对于一个 $n$ 维高斯分布 $\mathcal{N}(\mu,\Sigma)$，其概率密度为：

\[\begin{equation} f_X(x)= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \label{eq:gaussian-pdf} \end{equation}\]

其中，$\mu$ 称为均值，$\Sigma$ 称为协方差矩阵 (covariance matrix)：

\[\begin{equation} \Sigma=\mathbb{E}\left[ (X-\mu)(X-\mu)^T \right] \end{equation}\]

实际上这就是中心化之后的相关矩阵。

可以看到，高斯分布的密度函数有一个非常显著的特征：指数上方是一个二次型。

在附录1中，我们证明了公式 \eqref{eq:gaussian-pdf} 是一个概率密度函数。这个事情看起来没有什么用，但证明过程中所用到的积分技巧则是贯穿整个高斯过程的学习的。

二、特征函数

在上一篇文章中，我们介绍了随机向量的特征函数 (characteristic function)，并用它来证明了中心极限定理以及大数定律。我们已经看到，特征函数非常适合用来处理多个随机变量之和。

现在，我们将特征函数扩展一下，考虑一个 $n$ 维随机向量的特征函数：

\[\begin{equation} \Phi_X(\omega)= \mathbb{E}\left[ \exp(j\omega^TX) \right] \end{equation}\]

其中 $X,\omega\in\mathbb{R}^n$。

我们希望研究一下 $n$ 维高斯分布的特征函数：

\[\begin{equation} \begin{aligned} \Phi_X(\omega) &= \mathbb{E}\left[ \exp(j\omega^TX) \right]\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp(j\omega^Tx) \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \mathrm{d}x\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) +j\omega^Tx \right) \mathrm{d}x\\ \end{aligned} \end{equation}\]

观察上面的式子我们不难发现，指数上方总共有两项：一个是二次型（平方项），一个是线性项。当一个平方项和一个线性项同时出现时，一个非常重要的积分技巧就是使用【配方】，将其配成一个新的平方以及一些和积分变量无关的常数项。这样一来，里面的积分又变成高斯的形式（指数上方二次型），整个式子就只剩下了前面的常数项。

我们首先用一维的形式来做一遍，后面再直接推广到 $n$ 维。我们只考虑指数上方的项：

\[\begin{equation} \begin{aligned} -\frac{1}{2\sigma^2}(x-\mu)^2+j\omega x &= -\frac{1}{2\sigma^2} \left( x^2-2(\mu+j\sigma^2w)x+\mu^2 \right)\\ &= -\frac{1}{2\sigma^2} \left( x^2-2(\mu+j\sigma^2w)x+(\mu+j\sigma^2w)^2 -2j\mu\sigma^2w+\sigma^4\omega^2 \right)\\ &= -\frac{1}{2\sigma^2} \left( x-\mu-j\sigma^2w \right)^2 +j\mu w -\frac{1}{2}\sigma^2\omega^2 \end{aligned} \end{equation}\]

直接扩展到 $n$ 维：

\[\begin{equation} \begin{aligned} -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) +j\omega^Tx &= -\frac{1}{2} \left(x-\mu-j\Sigma w\right)^T\Sigma^{-1}\left(x-\mu-j\Sigma w\right)\\ &\qquad+ j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \end{aligned} \end{equation}\]

代入特征函数得：

\[\begin{equation} \begin{aligned} \Phi_X(\omega) &= \exp\left( j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \right)\cdot\\ &\qquad\underbrace{ \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2} \left(x-\mu-j\Sigma w\right)^T\Sigma^{-1}\left(x-\mu-j\Sigma w\right) \right) \mathrm{d}x}_{=1}\\ &=\exp\left( j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \right) \end{aligned} \label{eq:gaussian-char} \end{equation}\]

特别的，当 $n=1$ 时，$X\sim\mathcal{N}(\mu,\sigma^2)$ 的特征函数的形式为：

\[\begin{equation} \Phi_X(\omega)= \exp\left( j\mu\omega -\frac{1}{2}\sigma^2\omega^2 \right) \end{equation}\]

三、线性性

多元高斯分布最重要的性质是线性性 (linearity)。线性性表明，多个高斯随机变量的任意线性组合仍然是一个高斯随机变量。

考虑 $n$ 维随机变量 $X\sim\mathcal{N}(\mu,\Sigma)\in\mathbb{R}^n$，对于任意的矩阵 $A\in\mathbb{R}^{m\times n}$，我们有：

\[\begin{equation} Y=AX\sim\mathcal{N}(A\mu,A\Sigma A^T) \end{equation}\]

注意这里的变换矩阵 $A$ 甚至不需要是个方阵。我们比较熟悉的是处理维度相同的两个随机变量之间的关系，但这里的 $Y$ 和 $X$ 维度不同，利用一般的概率论方法根本无法处理。此时，我们需要利用特征函数来处理。

考虑 $Y$ 的特征函数：

\[\begin{equation} \begin{aligned} \Phi_Y(\omega) &= \mathbb{E}\left[ \exp(j\omega^TY) \right]\\ &= \mathbb{E}\left[ \exp(j\omega^TAX) \right]\\ &= \mathbb{E}\left[ \exp(j(A^T\omega)^TX) \right]\\ \end{aligned} \end{equation}\]

这就相当于 $X$ 的特征函数在 $A^T\omega$ 上的取值，即：

\[\begin{equation} \begin{aligned} \Phi_Y(\omega) &= \Phi_X(A^T\omega)\\ &= \exp\left( j\omega^TA\mu -\frac{1}{2}\omega^TA\Sigma A^T\omega \right)\\ \end{aligned} \end{equation}\]

对比高斯分布的特征函数 \eqref{eq:gaussian-char}，我们立刻可以发现 $Y$ 也是一个高斯分布，其均值为 $A\mu$，协方差为 $A\Sigma A^T$。

Note: 我们可以通过对比特征函数的形式来确定 $Y$ 的分布，这是因为特征函数和概率密度是一一对应的，前面我们已经证明了特征函数是概率密度的傅里叶变换。这个定理称为 Levy Inversion Theorem。

四、边缘分布与联合分布的高斯性

4.1. 联合高斯一定有边缘高斯

利用高斯分布的线性性，我们可以快速证明：高斯分布的任意边缘分布还是高斯分布。

设 $( X_1,\dots,X_n)^T$ 服从高斯分布，从其中任取 $k$ 个下标 $\lbrace n_1,\dots,n_k\rbrace\subseteq \lbrack n\rbrack$，则边缘分布 $( X_{n_1},\dots,X_{n_k})^T$ 也服从高斯分布。

这是因为：

\[\begin{equation} \begin{pmatrix} X_{n_1}\\ \vdots \\ X_{n_k} \end{pmatrix} = \begin{pmatrix} e_{n_1}^T\\ \vdots \\ e_{n_k}^T \end{pmatrix} \begin{pmatrix} X_1\\ \vdots \\ X_n \end{pmatrix} \end{equation}\]

其中，$e_{n_i}\in\mathbb{R}^n$ 是一个 $n$ 维单位向量，其第 $n_i$ 个元素为 $1$，其他元素为 $0$。

4.2. 反过来成立吗？

这个结论反过来是不成立的。即任意边缘分布都是高斯分布，联合分布也不一定是高斯分布。

考虑下面的反例。设两个随机变量 $(X_1,X_2)$，其联合分布为：

\[\begin{equation} f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right) + C(x_1,x_2) \end{equation}\]

其中，$C(x_1,x_2)$ 满足：

\[\begin{equation} \int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_1=\int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_2=0 \end{equation}\]

可以发现，两个边缘分布都是高斯：

\[\begin{equation} \begin{aligned} f_{X_1}(x_1) &= \int_{\mathbb{R}}f_{X_1,X_2}(x_1,x_2)\mathrm{d}x_2\\ &= \int_{\mathbb{R}}\frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right)\mathrm{d}x_2 +\int_{\mathbb{R}}C(x_1,x_2)\mathrm{d}x_2\\ &= \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x_1^2}{2}\right)\\ f_{X_2}(x_2) &= \int_{\mathbb{R}}f_{X_1,X_2}(x_1,x_2)\mathrm{d}x_1\\ &= \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x_2^2}{2}\right)\\ \end{aligned} \end{equation}\]

但联合分布并不是一个高斯分布。

对于 $C(x_1,x_2)$ 的取值，我们可以取 $C(x_1,x_2)=x_1x_2\exp(-x_1^2-x_2^2)$。但这样子可能会导致 $f_{X_1,X_2}(x_1,x_2)$ 不是一个概率密度函数，因为其积分值不是 $1$。此时只需要一些小修改即可：

\[\begin{equation} f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi}\exp\left(-\frac{x_1^2+x_2^2}{2}\right) + (1+x_1x_2\exp(-(x_1^2+x_2^2))) \end{equation}\]

4.3. 什么条件下二者等价？

那么，在什么条件下，边缘分布的高斯性能够确保联合分布的高斯性呢？

我们下面给出两个充分条件，满足任意一个都可以确保联合分布是高斯分布。

Corollary 1. 若 $X_1,\dots,X_n$ 是相互独立的高斯随机变量：$X_k\sim\mathcal{N}(\mu_k,\sigma_k^2)$，则 $(X_1,\dots,X_n)^T\sim\mathcal{N}(\mu,\Sigma)$，其中：

\[\begin{equation} \begin{aligned} \mu&=(\mu_1,\dots,\mu_n)^T\\ \Sigma&=\text{diag}(\sigma_1^2,\dots,\sigma_n^2)\\ \end{aligned} \end{equation}\]

Corollary 2. 任意线性组合都是高斯，则联合分布一定是高斯

\[\begin{equation} X=(X_1,\dots,X_n)^T\sim\mathcal{N} \iff \forall \alpha\in\mathbb{R}^n, \alpha^T X\sim\mathcal{N} \end{equation}\]

必要性是显然的，这是高斯分布的线性性所保证的。

下面我们来证明充分性。

任取 $\alpha\in\mathbb{R}^n$，考虑 $\alpha^T X\sim\mathcal{N}(\mu,\sigma^2)$ 的特征函数：

\[\begin{equation} \begin{aligned} \Phi_{\alpha^T X}(\omega) &= \mathbb{E}\left[ \exp\left(j(\alpha^T X)\omega\right) \right]\\ &= \exp\left( j\omega\mu -\frac{1}{2}\omega^2\sigma^2 \right) \end{aligned} \end{equation}\]

因此，我们可以写出 $X$ 的特征函数：

\[\begin{equation} \begin{aligned} \Phi_X(\alpha) &:= \mathbb{E}\left[ \exp\left(j\alpha^TX\right) \right]\\ &=\Phi_{\alpha^T X}(1)\\ &=\exp\left( j\mu -\frac{1}{2}\sigma^2 \right) \end{aligned} \end{equation}\]

其中，

\[\begin{equation} \begin{aligned} \mu &= \mathbb{E}\left[\alpha^TX\right] = \alpha^T\mu_X\\ \sigma^2 &= \mathbb{E}\left[ \left(\alpha^TX-\alpha^T\mu_X\right) \left(\alpha^TX-\alpha^T\mu_X\right)^T \right]\\ &= \alpha^T\mathbb{E}\left[ \left(X-\mu_X\right) \left(X-\mu_X\right)^T \right]\alpha\\ &= \alpha^T\Sigma_X\alpha\\ \end{aligned} \end{equation}\]

$\mu_X$ 和 $\Sigma_X$ 分别是 $X$ 的均值和协方差矩阵。

代入 $X$ 的特征函数得：

\[\begin{equation} \begin{aligned} \Phi_X(\alpha) &=\exp\left( j\alpha^T\mu_X -\frac{1}{2}\alpha^T\Sigma_X\alpha \right) \end{aligned} \end{equation}\]

对比高斯分布的特征函数 \eqref{eq:gaussian-char}，我们可以发现 $X$ 的确是服从高斯分布 $\mathcal{N}(\mu_X,\Sigma_X)$，得证。

五、高斯分布下的样本均值和样本方差

我们已经知道，对于 $n$ 个 i.i.d. 的随机变量 $X_1,\dots,X_n$，我们可以定义其样本均值和样本方差分别为：

\[\begin{equation} \begin{aligned} \overline{X} &= \frac{1}{n}\sum_{k=1}^n X_k\\ \overline{S} &= \frac{1}{n-1}\sum_{k=1}^n \left(X_k-\overline{X}\right)^2\\ \end{aligned} \end{equation}\]

其中，这二者都是无偏的，即 $\mathbb{E}\left[\overline{X}\right]=\mu_X$ 和 $\mathbb{E}\left[\overline{S}\right]=\sigma^2_X$。

当我们进一步假设随机变量服从高斯分布 $X_1,\dots,X_n\sim\mathcal{N}(\mu,\sigma^2)$，我们能够得到更多的结论。下面的Cochran定理就是一个重要的结论：

Theorem (Cochran). 设 $X=(X_1,\dots,X_n)^T\sim \mathcal{N}(\mu,\sigma^2I)$，则 $\overline{X}$ 和 $\overline{S}$ 是独立的。

下面我们来证明这一点。忽略样本方差中的常数项，我们有：

\[\begin{equation} \begin{aligned} (n-1)\overline{S} &= \frac{1}{n-1}\sum_{k=1}^n \left(X_k-\overline{X}\right)^2\\ &= \sum_{k=1}^n X_k^2 -2\cdot\overline{X}\cdot\underbrace{\sum_{k=1}^n X_k}_{n\overline{X}} +n\cdot\overline{X}^2\\ &= \sum_{k=1}^n X_k^2 -n\cdot\overline{X}^2\\ &= \sum_{k=1}^n X_k^2 -\left(\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k\right)^2 \end{aligned} \end{equation}\]

为了消除上面式子中的第二项，我们希望找到一个线性变换 $Y=AX$，使得：

\[\begin{equation} \begin{aligned} \sum_{k=1}^n X_k^2&=\sum_{k=1}^n Y_k^2\\ \frac{1}{\sqrt{n}}\sum_{k=1}^n X_k&=Y_1 \end{aligned} \end{equation}\]

事实上，这个矩阵 $A$ 不难构造。

我们只需要令 $A$ 的第一行全部为 $\frac{1}{\sqrt{n}}$，就能够满足第二个条件。而第一个条件意味着 $A$ 是一个正交矩阵（正交变换不改变长度），因此我们只需要构造 $A$ 剩下的行，使其变为正交矩阵。比如说，其中一种构造结果是：

\[\begin{equation} \begin{aligned} A_{1,j}&=\frac{1}{\sqrt{n}}\\ A_{i,j}&= \begin{cases} \frac{1}{\sqrt{i(i-1)}},&j\lt i\\ -\frac{i-1}{\sqrt{i(i-1)}},&j= i\\ 0,&j\gt i\\ \end{cases} \end{aligned} \end{equation}\]

由于 $X\sim\mathcal{N}(\mu,\sigma^2I)$，根据高斯分布的线性性，我们立马能够知道 $Y\sim\mathcal{N}(A\mu,A\sigma^2IA^T)=\mathcal{N}(A\mu,\sigma^2I)$。也就是说，$Y_1,\dots,Y_n$ 也是独立的（方差是对角矩阵）。

这样一来，我们就有：

\[\begin{equation} \begin{aligned} (n-1)\overline{S} &= \sum_{k=1}^n Y_k^2-Y_1^2\\ &= \sum_{k=2}^n Y_k^2 \end{aligned} \end{equation}\]

因此，样本方差与 $Y_1$ 是无关的，由于 $Y_1$ 恰好就是样本均值，因此我们证明了高斯分布下的样本均值和样本方差是独立的。

从这里也能看出为什么样本方差的分母是 $n-1$。虽然定义是 $n$ 个随机变量相加，但这些随机变量都是具有相关性的，真正无关的就只有 $n-1$ 个自由度。

六、条件高斯分布

考虑随机变量 $X=(X_1,X_2)^T\in\mathbb{R}^{m\times(n_1+n_2)}$，其中 $X_1\in\mathbb{R}^{m\times n_1}$ 和 $X_2\in\mathbb{R}^{m\times n_2}$。

若 $X\sim\mathcal{N}(\mu,\Sigma)$，其中：

\[\begin{equation} \begin{aligned} \mu&= \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}\\ \Sigma&= \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \end{aligned} \end{equation}\]

分别对应 $X_1$ 和 $X_2$ 的均值与协方差矩阵。注意 $\Sigma_{11}^T=\Sigma_{11},\Sigma_{22}^T=\Sigma_{22}$，而 $\Sigma_{12}^T=\Sigma_{21}$。

6.1. 条件分布的概率密度函数

我们希望研究条件分布 $X_1\mid X_2$ 的高斯性。考虑这个条件分布的概率密度函数：

\[\begin{equation} \begin{aligned} f_{X_1\mid X_2}(x_1\mid x_2) &= \frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_2}(x_2)}\\ &= C \frac{ \exp\left( -\frac{1}{2} \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix} \right) } { \exp\left( -\frac{1}{2} \left( x_2^T-\mu_2^T \right) \Sigma_{22}^{-1} \left( x_2-\mu_2 \right) \right) } \end{aligned} \label{eq:gaussian-cond-1} \end{equation}\]

6.1.1. 协方差矩阵分块对角化

和前面的方法类似，我们需要将两个指数项相减之后，试图配方来得到一个新的二次型，以此来分析其高斯性。但这里是一个高维的配方，比较复杂。问题主要集中在协方差矩阵的逆上。当我们对矩阵求逆之后，它的形式就会变得非常复杂，导致配方的难度较大。

为此，我们的想法是对协方差矩阵进行分块对角化，把非对角线矩阵全部变为0，并保留 $\Sigma_{22}$ 不变。这样一来就能与分母直接抵消，大大降低复杂度。

事实上，由于

\[\begin{equation} \begin{aligned} &\quad \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &= \begin{pmatrix} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}&0\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &= \begin{pmatrix} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}&0\\ 0&\Sigma_{22} \end{pmatrix} \end{aligned} \end{equation}\]

因此：

\[\begin{equation} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} = \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix} \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix} \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \end{equation}\]

6.1.2. 对分子进行配方

至此，我们就可以写出公式 \eqref{eq:gaussian-cond-1} 中的分子：

\[\begin{equation} \begin{aligned} &\quad \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{pmatrix}^{-1} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &= \begin{pmatrix} x_1^T-\mu_1^T&x_2^T-\mu_2^T \end{pmatrix} \begin{pmatrix} I&0\\ -\Sigma_{22}^{-1}\Sigma_{21}&I \end{pmatrix}\\ &\quad \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix}\\ &\quad \begin{pmatrix} I&-\Sigma_{12}\Sigma_{22}^{-1}\\ 0&I \end{pmatrix} \begin{pmatrix} x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &= \begin{pmatrix} x_1^T-\mu_1^T-\left(x_2^T-\mu_2^T\right)\Sigma_{22}^{-1}\Sigma_{21} &x_2^T-\mu_2^T \end{pmatrix}\\ &\quad \begin{pmatrix} \left(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right)^{-1}&0\\ 0&\Sigma_{22}^{-1} \end{pmatrix}\\ &\quad \begin{pmatrix} x_1-\mu_1-\Sigma_{22}^{-1}\Sigma_{21}\left(x_2-\mu_2\right)\\ x_2-\mu_2 \end{pmatrix}\\ &= \left( x_1^T-\mu_1^T-\left(x_2^T-\mu_2^T\right)\Sigma_{22}^{-1}\Sigma_{21} \right) \left( \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right)^{-1} \left( x_1-\mu_1-\Sigma_{22}^{-1}\Sigma_{21}\left(x_2-\mu_2\right) \right)\\ &\quad + \left( x_2^T-\mu_2^T \right) \Sigma_{22}^{-1} \left( x_2-\mu_2 \right) \end{aligned} \end{equation}\]

我们注意到，分子正好是两个二次型相加（都是形如 $\alpha^TA\alpha$ 的形式），且第二个二次型正好就是公式 \eqref{eq:gaussian-cond-1} 中的分母，二者直接抵消，只剩下第一个二次型。这恰好证明了条件分布的高斯性。

6.1.3. 最终形式

观察上式中第一个二次型，由于我们研究的变量是 $x_1$，因此我们可以看出条件分布的均值为：

\[\begin{equation} \mathbb{E}[X_1\mid X_2] = \mu_1+\Sigma_{12}\Sigma_{22}^{-1}\left(X_2-\mu_2\right) \end{equation}\]

协方差矩阵为：

\[\begin{equation} \Sigma_{X_1\mid X_2} = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \end{equation}\]

至此，我们就可以写出条件分布概率密度 \eqref{eq:gaussian-cond-1} 的最终形式：

\[\begin{equation} \begin{aligned} f_{X_1\mid X_2}(x_1\mid x_2) &= \mathcal{N}\left( \mu_1+\Sigma_{12}\Sigma_{22}^{-1}\left(x_2-\mu_2\right), \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right) \end{aligned} \label{eq:gaussian-cond-2} \end{equation}\]

6.2. 对条件期望的深入讨论

从公式 \eqref{eq:gaussian-cond-2} 中我们可以看到，条件分布的均值实际上是 $X_1$ 的均值 $\mu_1$ 加上一个修正项 $\Sigma_{12}\Sigma_{22}^{-1}\left(x_2-\mu_2\right)$。我们来解释一下这个修正项的含义。

我们用一维的形式来做解释：

\[\begin{equation} \mathbb{E}[X_1\mid X_2] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}\left(x_2-\mu_2\right) \end{equation}\]

可以看到，分子是互相关，分母是自相关，这正好是一个投影的形式。这是因为 $X_1$ 在 $X_2$ 上的投影系数为：

\[\begin{equation} \begin{aligned} \beta &= \frac{\langle X_1-\mu_1,X_2- \mu_2\rangle}{\langle X_2-\mu_2,X_2- \mu_2\rangle}\\ &=\frac{\sigma_{21}}{\sigma_{22}} \end{aligned} \end{equation}\]

因此，条件期望的均值实际上就是原来 $X_1$ 的均值 $\mu_1$ 加上条件 $X_2$ 的一些信息，这些信息就是变量 $X_1$ 投影到条件 $X_2$ 上的结果。

此外，在前面的内容中，我们证明了条件期望 $\mathbb{E}[X_1\mid X_2]$ 是均方距离意义下的最优估计(optimal estimator)，即：

\[\begin{equation} \arg\min_{g\in\mathcal{G}} \mathbb{E}\left[X_1-g(X_2)\right]^2=\mathbb{E}[X_1\mid X_2] \end{equation}\]

其中，$\mathcal{G}$ 是所有可测函数的集合。

同时，投影是均方距离意义下的最优线性估计 (optimal linear estimator)，即：

\[\begin{equation} \arg\min_{g\in\mathcal{L}} \mathbb{E}\left[X_1-g(X_2)\right]^2=\mu_1+\frac{\sigma_{12}}{\sigma_{22}}\left(x_2-\mu_2\right) \end{equation}\]

其中，$\mathcal{L}$ 是所有仿射函数的集合，即形如 $g(X_2)=a+bX_2$ 的函数。证明见附录2。

因此，在高斯分布的条件下，最优估计就是最优线性估计，这二者是等价的。这是高斯分布所独有的性质，线性的就是最好的。

6.3. 对条件协方差的深入讨论

我们同样对条件协方差 $\Sigma_{X_1\mid X_2}$ 进行一些讨论：

\[\begin{equation} \Sigma_{X_1\mid X_2} = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \end{equation}\]

同样的，这个条件协方差也是在原来的协方差矩阵 $\Sigma_{11}$ 上减去一个修正项 $\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$。

直观上，当我们增加了条件 $X_2$ 之后，协方差应当变小。这是因为条件相当于引入了先验知识 $X_2$，就会使得随机变量的随机性变小，因此协方差也应变小。

我们可以证明这一点。为了表示一个协方差矩阵是变大还是变小，我们来分析其半正定性。

容易看出，$\Sigma_{11}$ 和 $\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ 都是半正定的，而二者相减后仍然是半正定的。我们考虑一维情况：$\sigma_{11}-\sigma_{12}^2/\sigma_{22}$，根据柯西不等式，这个一定非负。

这样一来，当我们减去修正项之后，我们就可以说协方差矩阵“变小”了。

Appendix

Apd.1. 证明 \eqref{eq:gaussian-pdf} 是概率密度函数

下面我们证明 $n$ 维高斯分布 $N(\mu,\Sigma)$ 的密度函数 \eqref{eq:gaussian-pdf} 是合法的。

因此，我们只需要证明两件事情：

非负性：$f_X(x)\ge 0$。
归一性：$\int_{\mathbb{R}^n}f_X(x)\mathrm{d}x=1$。

其中，非负性是显然的。因为协方差矩阵 $\Sigma$ 是半正定的，其行列式一定非负，因此 $f_X(x)$ 一定非负。

下面我们来证明归一性。

\[\begin{equation} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x = \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \right) \mathrm{d}x \end{equation}\]

这里问题的核心在于被积函数中的协方差矩阵 $\Sigma$。如果 $\Sigma$ 是一个对角阵，我们就能够这 $n$ 个积分变量解耦开来，变为 $n$ 个独立的一维高斯分布的乘积。

这是可以做到的。注意到协方差矩阵是一个对称且半正定的矩阵，因此我们可以对其进行特征值分解：

\[\begin{equation} \Sigma=U^T\Lambda U \end{equation}\]

其中，$U$ 是一个正交矩阵，$\Lambda$ 是一个对角矩阵，其对角线上的元素就是 $\Sigma$ 的特征值。由于 $\Sigma$ 是半正定的，其特征值都是非负的，因此我们可以记：

\[\begin{equation} \Lambda=\text{diag}(\sigma_1^2,\dots,\sigma_n^2) \end{equation}\]

此时，我们有：

\[\begin{equation} \begin{aligned} \Lambda^{-1}&=\text{diag}\left(\frac{1}{\sigma_1^2},\dots,\frac{1}{\sigma_n^2}\right)\\ \det\Sigma&=\prod_{k=1}^n\sigma_k^2 \end{aligned} \end{equation}\]

下面我们进行积分换元。令 $y=U(x-\mu)$，因此 $x=U^Ty+\mu$。由于 $U$ 是正交矩阵，其行列式为 $\pm 1$，因此积分换元的雅可比为：

\[\begin{equation} \begin{aligned} \mathrm{d}x &= \vert\det J\vert\cdot \mathrm{d}y\\ &=\vert\det U^T\vert\cdot \mathrm{d}y\\ &=\mathrm{d}y \end{aligned} \end{equation}\]

由此：

\[\begin{equation} \begin{aligned} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}(x-\mu)^TU\Lambda^{-1}U^T(x-\mu) \right) \mathrm{d}x\\ &= \frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det\Sigma}} \int_{\mathbb{R}^n} \exp\left( -\frac{1}{2}y^T\Lambda^{-1}y \right) \mathrm{d}y\\ &= \frac{1}{\left(\sqrt{2\pi}\right)^{n}\prod_{k=1}^n\sigma_k} \int_{\mathbb{R}^n} \exp\left( -\sum_{k=1}^n\frac{y_k^2}{2\sigma_k^2} \right) \mathrm{d}y\\ &= \prod_{k=1}^n \left( \frac{1}{\sqrt{2\pi}\sigma_k} \int_{-\infty}^{\infty} \exp\left( -\frac{y_k^2}{2\sigma_k^2} \right) \mathrm{d}y_k \right) \end{aligned} \end{equation}\]

连乘中的每一项都是一个高斯分布 $\mathcal{N}(0,\sigma_k^2)$，因此其积分一定为1，因此：

\[\begin{equation} \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x=1 \end{equation}\]

得证。

Apd.2. 证明投影是均方距离意义下的最优线性估计

下面我们证明：

投影是均方距离意义下的最优线性估计，即优化问题

\[\begin{equation} \min_{a,b\in\mathbb{R}} \mathbb{E}\left[(X_1-(a+bX_2))^2\right] \end{equation}\]

的最优解为：

\[\begin{equation} \begin{aligned} b&=\frac{\sigma_{12}}{\sigma_{22}}\\ a&=\mu_1-b\mu_2 \end{aligned} \end{equation}\]

定义均方损失函数：

\[\begin{equation} \mathcal{J}=\mathbb{E}\left[(X_1-a-bX_2)^2\right] \end{equation}\]

对 $a$ 求偏导得：

\[\begin{equation} \frac{\partial\mathcal{J}}{\partial a}=2\mathbb{E}\left[(X_1-a-bX_2)\right] \end{equation}\]

令上式为0，解得：

\[\begin{equation} \mathbb{E}[X_1]-a-b\mathbb{E}[X_2]=0 \end{equation}\]

即 $a=\mu_1-b\mu_2$。

代入 $\mathcal{J}$ 得：

\[\begin{equation} \begin{aligned} \mathcal{J}(b) &=\mathbb{E}\left[((X_1-\mu_1)-b(X_2-\mu_2))^2\right]\\ &=\sigma_{11}-2b\sigma_{12}+b^2\sigma_{22} \end{aligned} \end{equation}\]

对 $b$ 求偏导得：

\[\begin{equation} \frac{\partial\mathcal{J}}{\partial b} = -2\sigma_{12}+2b\sigma_{22} \end{equation}\]