随机过程(7)

高斯过程(3): 高斯与非线性

Posted by Zifeng Mai on April 10, 2026

我们已经深入研究了高斯分布的线性性 (linearity)。这个性质指出,当一个高斯变量 $X\sim\mathcal{N}(\mu,\Sigma)$ 输入线性系统 $Y=AX$,则得到的输出 $Y\sim\mathcal{N}(A\mu,A\Sigma A^T)$ 也是一个高斯变量。在这一章中,我们希望研究高斯过程经过非线性系统后的性质。

考虑高斯过程 $X(t)$,经过一个非线性系统 $g$ 后得到输出 $Y(t)=g(X(t))$。这里的 $g$ 需要同时满足非线性性和无记忆性。显然,在一般情况下,$Y(t)$ 不再是一个高斯过程,但我们仍然能够得到 $Y(t)$ 的一些认识,例如它的均值 $\mathbb E[Y(t)]$ 和相关函数 $R_Y(t,s)=\mathbb E[Y(t)Y(s)]$。

下面我们对几种非线性的情况进行讨论研究。

一、常见的非线性系统

1.1. 平方

考虑 $X(t)$ 是宽平稳高斯过程,且均值 $\mathbb E[X(t)]=0$。我们希望研究 $Y(t)=X^2(t)$ 的性质。

显然,由于 $Y(t)\geq 0$,因此 $Y(t)$ 一定不是一个高斯过程。

1.1.1. 均值

由于 $X(t)$ 是宽平稳的,因此我们有:

\[\begin{equation} \mathbb{E}[Y(t)]=\mathbb{E}[X^2(t)]=R_X(0) \end{equation}\]

1.1.2. 相关函数

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb E[Y(t)Y(s)]\\ &=\mathbb E[X^2(t)X^2(s)] \end{aligned} \end{equation}\]

这里,我们需要用到需要用到特征函数来帮助来帮助我们计算上面这个高阶矩。我们这里介绍一个一般性的结论。

考虑任意的 $n$ 维随机变量 $X=(X_1,\dots,X_n)^T$,我们已经知道 $X$ 的特征函数的定义为:

\[\begin{equation} \begin{aligned} \phi_X(\omega) &= \mathbb{E}\left[ \exp\left(j\omega^T X\right) \right]\\ &= \mathbb{E}\left[ \exp\left(j\left( \omega_1X_1+\cdots+\omega_nX_n \right)\right) \right] \end{aligned} \end{equation}\]

则我们有如下重要结论:

\[\begin{equation} \mathbb{E}\left[ X_1^{\alpha_1}\cdots X_n^{\alpha_n} \right] = \left. \frac{1}{j^{\alpha_1+\cdots+\alpha_n}} \frac{\partial^{\alpha_1+\cdots+\alpha_n}}{ \partial\omega_1^{\alpha_1}\cdots\partial\omega_n^{\alpha_n} } \phi_X(\omega) \right| _{\omega_1=\cdots=\omega_n=0} \label{eq:moment} \end{equation}\]

这个式子虽然看起来复杂,但实际上很好理解。考虑到 $\phi_X(\omega)$ 是一个指数函数,当我们对 $\omega_1$ 求一次导,相当于增加了一个常数 $jX_1$,而指数项完全不变。因此,我们可以知道:

\[\begin{equation} \frac{\partial^{\alpha_1+\cdots+\alpha_n}}{ \partial\omega_1^{\alpha_1}\cdots\partial\omega_n^{\alpha_n} } \phi_X(\omega) = \mathbb{E}\left[ j^{\alpha_1+\cdots+\alpha_n} X_1^{\alpha_1}\cdots X_n^{\alpha_n} \exp\left(j\left( \omega_1X_1+\cdots+\omega_nX_n \right)\right) \right] \end{equation}\]

然后,我们令 $\omega_1=\cdots=\omega_n=0$,就能把整个指数项消掉。最后,再把 $j^{\alpha_1+\cdots+\alpha_n}$ 除过去,就能够得到结论。

回到我们的问题上。前面我们已经推导了 $n$ 维高斯变量 $X\sim\mathcal{N}(\mu,\Sigma)$ 的特征函数,其形式为:

\[\begin{equation} \phi_X(\omega) = \exp\left(j\omega^T \mu-\frac{1}{2}\omega^T\Sigma\omega\right) \end{equation}\]

在我们的问题上,我们需要考虑 $n=4$ 的情况。由于 $X(t)$ 的均值为0,因此上面的特征函数可以进一步化简为一个指数上方二次型:

\[\begin{equation} \begin{aligned} \phi_X(\omega) &= \exp\left(-\frac{1}{2}\omega^T\Sigma\omega\right)\\ &= \exp\left( -\frac{1}{2} \sum_{i,j=1}^4\Sigma_{ij}\omega_i\omega_j \right)\\ \end{aligned} \end{equation}\]

代入公式 \eqref{eq:moment},我们可以得到:

\[\begin{equation} \begin{aligned} \mathbb{E}[X_1X_2X_3X_4] = \mathbb{E}[X_1X_2]\mathbb{E}[X_3X_4] + \mathbb{E}[X_1X_3]\mathbb{E}[X_2X_4] + \mathbb{E}[X_1X_4]\mathbb{E}[X_2X_3] \end{aligned} \label{eq:moment-4} \end{equation}\]

Note:

  1. 四阶的过程比较繁琐,我们在附录1中给出了一个二阶的推导过程。

  2. 需要特别指出的是,这个结论是可以推广的。$n$ 个均值为 0 的随机变量($n$ 为偶数)之积的期望 $\mathbb{E}[X_1\cdots X_n]$ 也可以写成上面的形式,总共有 $(n-1)!!$ 项求和,每一项都是 $n/2$ 个二阶矩 $\mathbb{E}[X_iX_j]$ 之积,其下标正好覆盖了 $1,\dots,n$。

  3. 这个双阶乘的形式是我们是见过的。在这里我们求出了均值为 0 的高斯变量的 $n$ 阶矩。当 $n$ 为偶数时,结果为 $\sigma^n(n-1)!!$,正好和我们这里的结论完全对应。我们这里将结论推广到了 $n$ 个随机变量不同的情形。

现在我们终于可以计算平方系统输出的相关函数了。

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb E[X^2(t)X^2(s)]\\ &= \mathbb E[X^2(t)]\mathbb E[X^2(s)]+2\left(\mathbb E[X(t)X(s)]\right)^2\\ &= R_X^2(0)+2R_X^2(t-s) \end{aligned} \end{equation}\]

1.2. 硬限幅器

考虑均值为 0 的高斯过程 $X(t)$。硬限幅器 (Hard Limiter) 也称为取极器 (polarizer),其输出为:

\[\begin{equation} Y(t)=\mathrm{sgn}(X(t))= \begin{cases} 1,&X(t)\gt 0\\ -1,&X(t)\lt 0 \end{cases} \end{equation}\]

1.2.1. 均值

显然,我们有

\[\begin{equation} \begin{aligned} \mathbb{E}[Y(t)] &= P(Y(t)=1)-P(Y(t)=-1)\\ &= P(X(t)\gt 0)-P(X(t)\lt 0)\\ &= 0 \end{aligned} \end{equation}\]

1.2.2. 相关函数

我们来研究一下限幅器输出的相关函数。根据定义,

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb E[Y(t)Y(s)]\\ &= P(X(t)X(s)\gt 0) - P(X(t)X(s)\lt 0)\\ &= 2P(X(t)X(s)\gt 0)-1 \end{aligned} \end{equation}\]

因此,我们需要求一个二维(均值为 0 的)高斯变量大于 0 的概率。其中,变量的密度函数为:

\[\begin{equation} \begin{aligned} &\quad \ f_{X_1,X_2}(x_1,x_2)\\ &= \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left( -\frac{1}{2\left(1-\rho^2\right)} \left( \left(\frac{x_1}{\sigma_1}\right)^2+ \left(\frac{x_2}{\sigma_2}\right)^2- 2\rho \left(\frac{x_1}{\sigma_1}\right)\left(\frac{x_2}{\sigma_2}\right) \right) \right) \end{aligned} \label{eq:pdf} \end{equation}\]

我们要求 $P(X(t)X(s)\gt 0)$,相当于在一三象限上对 $f_{X_1,X_2}$ 积分。由于均值为 0,因此在一、三象限上的积分值是相同的。因此:

\[\begin{equation} \begin{aligned} P(X(t)X(s)\gt 0) &= \left( \int_{0}^{\infty} \int_{0}^{\infty} + \int_{-\infty}^{0} \int_{-\infty}^{0} \right) f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ &= 2 \int_{0}^{\infty} \int_{0}^{\infty} f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2 \end{aligned} \end{equation}\]

这个积分的过程比较繁琐但难度不高,总的来说就是不断地使用积分换元。我们在附录2中给出了详细的积分过程。最终的结果为:

\[\begin{equation} P(X(t)X(s)\gt 0)=\frac{1}{2}+\frac{1}{\pi}\arcsin\rho \label{eq:limiter} \end{equation}\]

公式 \eqref{eq:limiter} 在概率论中称为反正弦率 (Arcsin Law)。通过画出概率密度的等高线图,我们可以一目了然地看出这个结论。

二元高斯分布的等高线图是一个椭圆,而相关系数 $\rho$ 则决定了椭圆旋转的方向。我们所求的 $P(X(t)X(s)\gt 0)$ 正好是椭圆在第一、第三象限的面积 $S$。

  • 当 $\rho=0$ 时,两个随机变量独立,椭圆的长轴落在坐标轴上,此时面积 $S=\frac{1}{2}$。
  • 当 $\rho\gt 0$ 时,椭圆的长轴位于一三象限,此时面积 $S\gt \frac{1}{2}$。
  • 当 $\rho\lt 0$ 时,椭圆的长轴位于二四象限,此时面积 $S\lt \frac{1}{2}$。

因此,我们就得出了硬限幅器输出的相关函数 $R_Y(t,s)$。

\[\begin{equation} \begin{aligned} R_Y(t,s) &= 2P(X(t)X(s)\gt 0)-1\\ &= \frac{2}{\pi}\arcsin\rho \end{aligned} \end{equation}\]

注意到,相关系数的定义为:

\[\begin{equation} \rho=\frac{\mathbb{E}[X_1X_2]}{\sqrt{\mathbb{E}[X_1^2]\mathbb{E}[X_2^2]}} \end{equation}\]

因此,对于宽平稳随机过程来说,我们有:

\[\begin{equation} \begin{aligned} R_Y(t,s) &= \frac{2}{\pi}\arcsin\rho\\ &= \frac{2}{\pi} \arcsin\left(\frac{R_X(t-s)}{R_X(0)}\right) \end{aligned} \end{equation}\]

1.3. 指数/三角函数族

对于指数和三角函数族,我们可以利用特征函数简单地求解。

事实上,

\[\begin{equation} \begin{aligned} \mathbb{E}[\exp(X(t))\exp(X(s))] &=\mathbb{E}[\exp(X(t)+X(s))]\\ &=\mathbb{E}[\exp(j\cdot(-j)\cdot X(t)+j\cdot(-j)\cdot X(s))]\\ &= \phi_{X(t),X(s)}(-j,-j) \end{aligned} \end{equation}\]

回顾 $n$ 元高斯分布的特征函数为

\[\begin{equation} \Phi_X(\omega) =\exp\left( j\omega^T\mu -\frac{1}{2}\omega^T\Sigma\omega \right) \end{equation}\]

当 $n=2$ 时,

\[\begin{equation} \Sigma= \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix} \end{equation}\]

代入 $\mu=0$ 和 $\Sigma$ 后我们得到:

\[\begin{equation} \Phi_{X_1,X_2}(\omega_1,\omega_2) =\exp\left( -\frac{1}{2} \left( \sigma_1^2\omega_1^2 +2\rho\sigma_1\sigma_2\omega_1\omega_2 +\sigma_2^2\omega_2^2 \right) \right) \end{equation}\]

因此,

\[\begin{equation} \begin{aligned} \mathbb{E}[\exp(X(t))\exp(X(s))] &=\mathbb{E}[\exp(X(t)+X(s))]\\ &= \phi_{X(t),X(s)}(-j,-j)\\ &= \exp\left( \frac{1}{2} \left( \sigma_1^2 +2\rho\sigma_1\sigma_2 +\sigma_2^2 \right) \right) \end{aligned} \end{equation}\]

对于三角函数族的非线性系统,我们都可以通过欧拉公式将其全部转为指数函数来求解。

二、Price Theorem

通过上面的内容,我们能够感受到求解非线性问题的困难。即使这是一个简单的非线性函数(如平方函数、符号函数),我们都需要非常大的功夫来了解其输出的性质。

在这里,我们介绍 Price Theorem,它可以帮助我们更好地处理非线性的问题。

Theorem (Price). 设 $(X_1,X_2)\sim\mathcal{N}(0,0,\sigma_1,\sigma_2,\rho)$,$g(x_1,x_2)$ 是一个非线性函数,则有:

\[\begin{equation} \frac{\partial\mathbb{E}[g(X_1,X_2)]}{\partial\rho} = \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right] \end{equation}\]

2.1. Price Theorem 的证明

根据定义,我们有

\[\begin{equation} \begin{aligned} &\quad\ \mathbb{E}[g(X_1,X_2)]\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ \end{aligned} \end{equation}\]

公式 \eqref{eq:pdf} 中给出了概率密度函数 $f_{X_1,X_2}$ 的形式。可以看到,这里面的 $\rho$ 分散在各个地方。Price Theorem 中需要将期望对 $\rho$ 取偏导数,在这个形式下非常难做。

这个困难的根源在于,在概率密度函数中我们需要对协方差矩阵求逆,这就导致了 $\rho$ 出现在多个地方。因此,我们不想求这个逆。幸运的是,我们确实有工具可以不求逆的情况下表示概率密度,这就是特征函数

\[\begin{equation} \Phi_{X_1,X_2}(\omega_1,\omega_2) =\exp\left( -\frac{1}{2} \left( \sigma_1^2\omega_1^2 +2\rho\sigma_1\sigma_2\omega_1\omega_2 +\sigma_2^2\omega_2^2 \right) \right) \end{equation}\]

更重要的是,我们知道特征函数与概率密度正好是一对傅里叶变换对:

\[\begin{equation} f_{X_1,X_2}(x_1,x_2) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \Phi_{X_1,X_2}(\omega_1,\omega_2) \exp\left( -j(\omega_1x_1+\omega_2x_2) \right) \mathrm{d}\omega_1\mathrm{d}\omega_2 \end{equation}\]

将上式代入得:

\[\begin{equation} \begin{aligned} &\quad\ \mathbb{E}[g(X_1,X_2)]\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \Phi_{X_1,X_2}(\omega_1,\omega_2) \exp\left( -j(\omega_1x_1+\omega_2x_2) \right) \mathrm{d}\omega_1\mathrm{d}\omega_2 \mathrm{d}x_1\mathrm{d}x_2\\ \end{aligned} \end{equation}\]

在上面这一大串表达式中,$\rho$ 就只出现在特征函数的交叉项中,我们非常好求导。注意到:

\[\begin{equation} \frac{\partial \Phi_{X_1,X_2}(\omega_1,\omega_2)}{\partial \rho} = (-\sigma_1\sigma_2\omega_1\omega_2)\Phi_{X_1,X_2}(\omega_1,\omega_2) \end{equation}\]

因此,我们有:

\[\begin{equation} \begin{aligned} &\quad\ \frac{\partial \mathbb{E}[g(X_1,X_2)]}{\partial \rho}\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{\partial \Phi_{X_1,X_2}(\omega_1,\omega_2)}{\partial \rho} \exp\left( -j(\omega_1x_1+\omega_2x_2) \right) \mathrm{d}\omega_1\mathrm{d}\omega_2 \mathrm{d}x_1\mathrm{d}x_2\\ &= \sigma_1\sigma_2 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (-\omega_1\omega_2) \Phi_{X_1,X_2}(\omega_1,\omega_2) \exp\left( -j(\omega_1x_1+\omega_2x_2) \right) \mathrm{d}\omega_1\mathrm{d}\omega_2 \mathrm{d}x_1\mathrm{d}x_2\\ &= \sigma_1\sigma_2 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) \frac{\partial^2 }{\partial x_1\partial x_2} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \Phi_{X_1,X_2}(\omega_1,\omega_2) \exp\left( -j(\omega_1x_1+\omega_2x_2) \right) \mathrm{d}\omega_1\mathrm{d}\omega_2 \mathrm{d}x_1\mathrm{d}x_2\\ &= \sigma_1\sigma_2 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_1,x_2) \frac{\partial^2 }{\partial x_1\partial x_2} f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ &= \sigma_1\sigma_2 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{\partial^2 g(x_1,x_2)}{\partial x_1\partial x_2} f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ &= \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right] \end{aligned} \end{equation}\]

得证。

2.2. 利用 Price Theorem 求解非线性系统

2.2.1. 平方

令非线性变换为 $g(x_1,x_2)=x_1^2x_2^2$,则相关函数可以写为:

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb{E}[Y(t)Y(s)]\\ &=\mathbb{E}[ X(t)^2 X(s)^2 ]\\ &=\mathbb{E}[ g(X(t),X(s)) ] \end{aligned} \end{equation}\]

下面我们求 $g$ 的二阶偏导数:

\[\begin{equation} \frac{\partial^2 g}{\partial x_1\partial x_2} =4x_1x_2 \end{equation}\]

代入 Price Theorem 的右边有:

\[\begin{equation} \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right]\\ =4\sigma_1\sigma_2 \mathbb{E}\left[ X_1X_2 \right] \end{equation}\]

注意到:

\[\begin{equation} \begin{aligned} \rho &= \frac{\mathbb{E}[X_1X_2]}{\sqrt{\mathbb{E}[X_1^2]\mathbb{E}[X_2^2]}}\\ &= \frac{\mathbb{E}[X_1X_2]}{\sigma_1\sigma_2} \end{aligned} \end{equation}\]

因此,

\[\begin{equation} \begin{aligned} \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right] &=4\sigma_1\sigma_2 \mathbb{E}\left[ X_1X_2 \right]\\ &=4\sigma_1^2\sigma_2^2\rho\\ &=\frac{\partial\mathbb{E}[g(X_1,X_2)]}{\partial\rho} \end{aligned} \end{equation}\]

注意 $\mathbb{E}[g(X_1,X_2)]$ 这里是一个关于 $\rho$ 的函数,我们还需要一个初值才能求解这个偏微分方程。

当 $\rho=0$ 时,$X_1$ 和 $X_2$ 独立,此时有:

\[\begin{equation} \begin{aligned} \left.\mathbb{E}[g(X_1,X_2)]\right|_{\rho=0} &= \mathbb{E}[X_1^2]\mathbb{E}[X_2^2]\\ &=\sigma_1^2\sigma_2^2 \end{aligned} \end{equation}\]

因此,两边积分后得到:

\[\begin{equation} \begin{aligned} \mathbb{E}[g(X_1,X_2)] &=2\sigma_1^2\sigma_2^2\rho^2+\sigma_1^2\sigma_2^2\\ &=2\mathbb{E}[X_1X_2]^2+\mathbb{E}[X_1^2]\mathbb{E}[X_2^2] \end{aligned} \end{equation}\]

由于 $X(t)$ 是宽平稳的,我们能够直接求出相关函数:

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb{E}[ g(X(t),X(s)) ]\\ &= 2\mathbb{E}[X(t)X(s)]^2+\mathbb{E}[X^2(t)]\mathbb{E}[X^2(s)]\\ &= 2R_X^2(t-s)+R_X^2(0) \end{aligned} \end{equation}\]

2.2.2. 硬限幅器

令非线性变换为 $g(x_1,x_2)=\mathrm{sgn}(x_1)\mathrm{sgn}(x_2)$,则相关函数可以写为:

\[\begin{equation} \begin{aligned} R_Y(t,s) &=\mathbb{E}[Y(t)Y(s)]\\ &=\mathbb{E}[ \mathrm{sgn}(X(t)) \mathrm{sgn}(X(s)) ]\\ &=\mathbb{E}[ g(X(t),X(s)) ] \end{aligned} \end{equation}\]

下面我们求 $g$ 的二阶偏导数。注意到符号函数的导函数为:

\[\begin{equation} \frac{\mathrm{d}}{\mathrm{d}x}\mathrm{sgn}(x)=2\delta(x) \end{equation}\]

因此,我们有:

\[\begin{equation} \frac{\partial^2 g}{\partial x_1\partial x_2} =4\delta(x_1)\delta(x_2) \end{equation}\]

代入 Price Theorem 的右边有:

\[\begin{equation} \begin{aligned} &\quad\ \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right]\\ &=\sigma_1\sigma_2 \mathbb{E}\left[ 4\delta(X_1)\delta(X_2) \right]\\ &= \sigma_1\sigma_2 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} 4\delta(x_1)\delta(x_2) \exp\left( \cdots \right) \mathrm{d}x_1\mathrm{d}x_2\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \frac{2}{\pi\sqrt{1-\rho^2}} \delta(x_1)\delta(x_2) \exp\left( \cdots \right) \mathrm{d}x_1\mathrm{d}x_2\\ \end{aligned} \end{equation}\]

上面的式子看起来很复杂,但其实非常好算。注意到,当且仅当 $x_1=x_2=0$ 时,$\delta(x_1)\delta(x_2)\neq 0$,而此时指数项内直接为 0,因此整个指数的值为 1。也就是说,上式可以立即写为:

\[\begin{equation} \begin{aligned} \sigma_1\sigma_2\mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right] &=\frac{2}{\pi}\frac{1}{\sqrt{1-\rho^2}}\\ &=\frac{\partial\mathbb{E}[g(X_1,X_2)]}{\partial\rho} \end{aligned} \end{equation}\]

这相当于要求一个偏微分方程

\[\begin{equation} \frac{\partial\mathbb{E}[g(X_1,X_2)]}{\partial\rho} = \frac{2}{\pi}\frac{1}{\sqrt{1-\rho^2}} \end{equation}\]

注意到,当 $\rho=0$ 时,$X_1$ 和 $X_2$ 独立,此时有:

\[\begin{equation} \begin{aligned} \left.\mathbb{E}[g(X_1,X_2)]\right|_{\rho=0} &= \mathbb{E}[\mathrm{sgn}(X_1)]\mathbb{E}[\mathrm{sgn}(X_2)]\\ &=0 \end{aligned} \end{equation}\]

因此,两边积分之后就有

\[\begin{equation} \mathbb{E}[g(X_1,X_2)]=\frac{2}{\pi}\arcsin\rho \end{equation}\]

直接就能得到结果。

2.2.3. ReLU

令 $g(x_1,x_2)=\mathrm{ReLU}(x_1)\mathrm{ReLU}(x_2)$。

注意到 ReLU 的导数是阶跃函数 $U(x)$,因此:

\[\begin{equation} \begin{aligned} \frac{\partial^2 g}{\partial x_1\partial x_2} &=U(x_1)U(x_2) \end{aligned} \end{equation}\]

因此:

\[\begin{equation} \begin{aligned} \mathbb{E}\left[ \frac{\partial^2 g}{\partial x_1\partial x_2}(X_1,X_2) \right] &=P(X_1\gt 0,X_2\gt 0)\\ &=\frac{1}{4}+\frac{1}{2\pi}\arcsin\rho \end{aligned} \end{equation}\]

根据 Price Theorem,我们有:

\[\begin{equation} \frac{\partial\mathbb{E}[g(X_1,X_2)]}{\partial\rho} = \sigma_1\sigma_2\left( \frac{1}{4}+\frac{1}{2\pi}\arcsin\rho \right) \end{equation}\]

由分部积分法,我们有:

\[\begin{equation} \begin{aligned} \int\arcsin\rho\mathrm{d}\rho &= \rho\arcsin\rho-\int\rho\mathrm{d}\arcsin\rho\\ &= \rho\arcsin\rho-\int\frac{\rho}{\sqrt{1-\rho^2}}\mathrm{d}\rho\\ &= \rho\arcsin\rho+\sqrt{1-\rho^2} \end{aligned} \end{equation}\]

因此,我们有:

\[\begin{equation} \mathbb{E}[g(X_1,X_2)] = \sigma_1\sigma_2\left( \frac{1}{4}\rho+\frac{1}{2\pi}\left(\rho\arcsin\rho+\sqrt{1-\rho^2}\right) \right)+C \end{equation}\]

这里确定 $C$ 要算初值。当 $\rho=0$ 时初值为 $\mathbb{E}[\mathrm{ReLU}(x_1)]\mathbb{E}[\mathrm{ReLU}(x_2)]$。

但这个比较难算,我们在这里就省略了。初值对于我们的分析没有影响。

Appendix

Apd.1. 公式 \eqref{eq:moment-4} 的二阶版本推导

我们现在来展示一下 $n=2$ 时公式 \eqref{eq:moment-4} 的形式。

\[\begin{equation} \begin{aligned} &\quad\ \frac{\partial^2}{\partial \omega_1 \partial \omega_2} \exp\left( -\frac{1}{2} \sum_{i,j=1}^2\Sigma_{ij}\omega_i\omega_j \right)\\ &= \frac{\partial^2}{\partial \omega_1 \partial \omega_2} \exp\left( -\frac{1}{2} \left( \Sigma_{11}\omega_1^2+2\Sigma_{12}\omega_1\omega_2+\Sigma_{22}\omega_2^2 \right) \right)\\ &= -\frac{\partial}{\partial \omega_2}\left[ \left(\Sigma_{11}\omega_1+\Sigma_{12}\omega_2\right) \exp\left( \cdots \right) \right]\\ &= -\Sigma_{12}+\left(\Sigma_{12}\omega_1+\Sigma_{22}\omega_2\right) \exp\left( \cdots \right)\\ \end{aligned} \end{equation}\]

令 $\omega_1=\omega_2=0$,指数项就变成 0。因此,有

\[\begin{equation} \left.\frac{\partial^2}{\partial \omega_1 \partial \omega_2} \exp\left( -\frac{1}{2} \sum_{i,j=1}^2\Sigma_{ij}\omega_i\omega_j \right)\right|_{\omega_1=\omega_2=0}=-\Sigma_{12} \end{equation}\]

因此,我们有:

\[\begin{equation} \begin{aligned} \frac{1}{j^2} \left.\frac{\partial^2}{\partial \omega_1 \partial \omega_2} \exp\left( -\frac{1}{2} \sum_{i,j=1}^2\Sigma_{ij}\omega_i\omega_j \right)\right|_{\omega_1=\omega_2=0}\ &=\frac{1}{j^2}\cdot-\Sigma_{12}\\ &=\Sigma_{12}\\ &=\mathbb{E}[X_1X_2] \end{aligned} \end{equation}\]

得证。

Apd.2. 公式 \eqref{eq:limiter} 的详细推导

我们准备换元。令:

\[\begin{equation} \begin{cases} y_1=\frac{x_1}{\sqrt{1-\rho^2}\sigma_1}\\ y_2=\frac{x_2}{\sqrt{1-\rho^2}\sigma_2} \end{cases} \end{equation}\]

首先我们算雅可比行列式:

\[\begin{equation} \mathrm{d}x_1\mathrm{d}x_2 = \left(1-\rho^2\right)\sigma_1\sigma_2\mathrm{d}y_1\mathrm{d}y_2 \end{equation}\]

此时,原式变为:

\[\begin{equation} \begin{aligned} &\quad \ P(X(t)X(s)\gt 0)\\ &= 2\int_{0}^{\infty} \int_{0}^{\infty} f_{X_1,X_2}(x_1,x_2) \mathrm{d}x_1\mathrm{d}x_2\\ &= \int_{0}^{\infty} \int_{0}^{\infty} \frac{1}{\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left( -\frac{1}{2\left(1-\rho^2\right)} \left( \left(\frac{x_1}{\sigma_1}\right)^2+ \left(\frac{x_2}{\sigma_2}\right)^2- 2\rho \left(\frac{x_1}{\sigma_1}\right)\left(\frac{x_2}{\sigma_2}\right) \right) \right) \mathrm{d}x_1\mathrm{d}x_2\\ &= \int_{0}^{\infty} \int_{0}^{\infty} \frac{\sqrt{1-\rho^2}}{\pi} \exp\left( -\frac{1}{2} \left( y_1^2+ y_2^2- 2\rho y_1y_2 \right) \right) \mathrm{d}y_1\mathrm{d}y_2\\ \end{aligned} \end{equation}\]

下面我们的任务就是把交叉项 $y_1y_2$ 给消掉。当然我们可以配方,但这里我们展示另一种方法,继续积分换元。

我们令:

\[\begin{equation} \begin{cases} y_1=u-v\\ y_2=u+v \end{cases} \end{equation}\]

我们先算雅可比:

\[\begin{equation} \begin{aligned} \mathrm{d}y_1\mathrm{d}y_2 &= \left\vert \frac{\partial (y_1,y_2)}{\partial (u,v)} \right\vert \mathrm{d}u\mathrm{d}v\\ &= \left\vert \det \begin{pmatrix} 1&-1\\1&1 \end{pmatrix} \right\vert \mathrm{d}u\mathrm{d}v\\ &=2\mathrm{d}u\mathrm{d}v\\ \end{aligned} \end{equation}\]

因此,原式变为:

\[\begin{equation} \begin{aligned} &\quad \ P(X(t)X(s)\gt 0)\\ &= \int_{0}^{\infty} \int_{0}^{\infty} \frac{\sqrt{1-\rho^2}}{\pi} \exp\left( -\frac{1}{2} \left( y_1^2+ y_2^2- 2\rho y_1y_2 \right) \right) \mathrm{d}y_1\mathrm{d}y_2\\ &= \int\int \frac{2\sqrt{1-\rho^2}}{\pi} \exp\left( -\frac{1}{2} \left( (u-v)^2+ (u+v)^2- 2\rho \left(u^2-v^2\right) \right) \right) \mathrm{d}u\mathrm{d}v\\ &= \int\int \frac{2\sqrt{1-\rho^2}}{\pi} \exp\left( - \left( (1-\rho)u^2+(1+\rho)v^2 \right) \right) \mathrm{d}u\mathrm{d}v\\ \end{aligned} \end{equation}\]

为了更方便积分,我们再换一次元,令:

\[\begin{equation} \begin{cases} u'=\sqrt{1-\rho}u\\ v'=\sqrt{1+\rho}v \end{cases} \end{equation}\]

雅可比为:

\[\begin{equation} \mathrm{d}u\mathrm{d}v = \frac{1}{\sqrt{1-\rho^2}}\mathrm{d}u'\mathrm{d}v' \end{equation}\]

因此,原式变为:

\[\begin{equation} \begin{aligned} &\quad \ P(X(t)X(s)\gt 0)\\ &= \int\int \frac{2\sqrt{1-\rho^2}}{\pi} \exp\left( - \left( (1-\rho)u^2+(1+\rho)v^2 \right) \right) \mathrm{d}u\mathrm{d}v\\ &= \int\int _{\Omega} \frac{2}{\pi} \exp\left( -\left(u'^2+v'^2\right) \right) \mathrm{d}u'\mathrm{d}v'\\ \end{aligned} \end{equation}\]

其中,积分区域为:

\[\begin{equation} \Omega= \left\lbrace (u,v)\mid u\ge 0, -\frac{\sqrt{1+\rho}}{\sqrt{1-\rho}} u \le v\le \frac{\sqrt{1+\rho}}{\sqrt{1-\rho}} u \right\rbrace \end{equation}\]

为了求解这个高斯积分,常见的做法是使用三角变换。令:

\[\begin{equation} \begin{cases} u'=r\cos\theta\\ v'=r\sin\theta \end{cases} \end{equation}\]

极坐标变换的雅可比为:

\[\begin{equation} \mathrm{d}u'\mathrm{d}v' = r\mathrm{d}r\mathrm{d}\theta \end{equation}\]

换元之后,$r$ 的积分范围为 $0$ 到 $\infty$,而极角 $\theta$ 的积分范围为 $-\theta_0$ 到 $\theta_0$。其中,

\[\begin{equation} \tan\theta_0=\sqrt{\frac{1+\rho}{1-\rho}} \end{equation}\]

因此,原式变为:

\[\begin{equation} \begin{aligned} &\quad \ P(X(t)X(s)\gt 0)\\ &= \int\int _{\Omega} \frac{2}{\pi} \exp\left( -\left(u'^2+v'^2\right) \right) \mathrm{d}u'\mathrm{d}v'\\ &= \int_{-\theta_0}^{\theta_0} \int_{0}^{\infty} \frac{2}{\pi} \exp\left( -r^2 \right) r\mathrm{d}r \mathrm{d}\theta\\ &= \int_{-\theta_0}^{\theta_0} \left. -\frac{1}{\pi} \exp\left( -r^2 \right) \right|_{0}^{\infty} \mathrm{d}\theta\\ &= \int_{-\theta_0}^{\theta_0} \frac{1}{\pi} \mathrm{d}\theta\\ &=\frac{2}{\pi}\theta_0\\ \end{aligned} \end{equation}\]

其实到这一步已经求解完成了,但是为了更加直观方便,我们还可以进一步变形。

根据三角函数的万能公式:

\[\begin{equation} \begin{aligned} \cos 2\theta_0 &=\frac{1-\tan^2\theta_0}{1+\tan^2\theta_0}\\ &=\frac{1-\frac{1+\rho}{1-\rho}}{1+\frac{1+\rho}{1-\rho}}\\ &=-\rho \end{aligned} \end{equation}\]

因此,原式变为:

\[\begin{equation} \begin{aligned} P(X(t)X(s)\gt 0) &=\frac{2}{\pi}\theta_0\\ &=\frac{1}{\pi}\arccos(-\rho)\\ &=\frac{1}{\pi}\left(\frac{\pi}{2}-\arcsin(-\rho)\right)\\ &=\frac{1}{\pi}\left(\frac{\pi}{2}+\arcsin\rho\right)\\ &=\frac{1}{2}+\frac{1}{\pi}\arcsin\rho \end{aligned} \end{equation}\]