Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

随机过程(6)

高斯过程(2): 多元高斯分布

本文是张颢老师随机过程课程笔记的第六篇。在本文中,我们深入介绍了多元高斯分布的一些基本性质,包括其概率密度函数、特征函数和线性性。根据线性性,我们探讨了边缘分布的高斯性与联合分布的高斯性之间的关系。

论文推荐:变分序列级软策略优化

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

强化学习算法需要重要性采样来解决off-policy分布偏移的问题。传统的序列级重要性采样方式虽然理论上无偏,但面临着方差随序列长度指数级爆炸的问题。为此,本文提出了一种基于变分原理的软策略优化方法VESPO,通过将重要性权重塑形问题建模为在方差约束下的变分分布对齐问题,作者推导出了一个闭式解的塑形核函数。该方法无需长度归一化,直接在序列级操作,有效控制了方差。实验表明VESPO在高策略过时率和全异步训练设置下仍能保持稳定,并在MoE模型上取得了优于GRPO和GSPO的效果。

随机过程(5)

高斯过程(1): Gaussian is Everywhere

本文是张颢老师随机过程课程笔记的第五篇。在本文中,主要展示了高斯分布在多个场景下的普遍性。第一个例子是物理角度上的扩散过程,我们可以看到粒子的分布函数正好是高斯分布。第二个例子是信息论上的最大熵分布,我们分别求解了在无穷区间、半无穷区间和有限区间上的最大熵分布,结果分别是高斯分布、指数分布和均匀分布。第三个例子是概率论中多个随机变量之和的渐近行为分析,我们证明了大数定律、中心极限定理,并介绍了重对数律。第四个例子是随机过程中的随机游动,我们展示了一维对称随机游动的分布和扩散过程一样也是高斯分布。

随机过程(4)

多元相关

本文是张颢老师随机过程课程笔记的第四篇。在本文中,我们举出四个场景研究了多个随机变量之间的相关。第一,我们推导了如何对多个变量去相关,展示了利用相关矩阵的形式来解决看似不太好处理的问题。第二,我们深入研究了Karhunen-Loève展开。我们展示K-L展开的双正交性,并且发现某些宽平稳随机过程的傅里叶展开恰好就满足双正交性。借由这个认识,我们建立了一套对任意宽平稳随机过程进行谱分析的方法论,并且把这套理论和前面提到的Wiener-Khintchine定理优美地建立了联系,从而对宽平稳有了更加深刻的认识。最后,我们介绍了PCA,推导了PCA投影向量的解法,还讨论了投影向量和随机变量之间的关系。

随机过程(3)

非平稳随机过程

本文是张颢老师随机过程课程笔记的第三篇。在本文中,我们介绍了两种典型的非平稳随机过程:周期平稳和正交增量。对于这两种随机过程,我们都指出了它们与宽平稳随机过程的区别和联系,同时分别举了一个例子来展示它们的性质。本文中还包含了条件期望的介绍,这是随机过程领域中一个非常重要的数学工具,用于求解多个随机变量的期望。

随机过程(2)

宽平稳随机过程相关函数的时频分析

本文是张颢老师随机过程课程笔记的第二篇。在本文中,我们分别从时域和频域两个角度深入分析了一个宽平稳随机过程的相关函数。从时域上,我们介绍了相关函数的一些性质,包括柯西不等式、周期性、连续性等。我们通过Bochner定理,从数学的视角上证明了相关函数的正定性与其傅里叶变换的关系。在频域上,我们介绍了Wiener-Khintchine定理,证明了相关函数的傅里叶变换等于功率谱密度,从物理的视角上进一步深化了Bochner定理的认识。