Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

生成模型 (2.1)

Energy-based Model

本文介绍了基于能量的模型 (Energy-based Models, EBMs),它是一种利用分数进行生成式建模的简单方法。我们首先从变分的角度出发,介绍了EBMs的基本原理,包括能量函数的定义、概率分布的归一化项、以及如何通过最大化对数似然来训练EBMs。最后,我们还介绍了基于朗之万动力学 (Langevin dynamics) 进行采样的方法,以及如何利用分数场将样本推向数据分布中高概率的方向。

生成模型 (1.3)

Denoising Diffusion Probabilistic Model

本文深入介绍了DDPM的数学原理,包括DDPM的前向过程和反向过程、条件化技巧、ELBO的推导以及优化、DDPM的采样过程。通过本文,读者能够全面了解DDPM的工作原理,以及如何应用DDPM来解决生成模型的问题。

生成模型 (1.2)

Variational Auto-Encoder

本文深入介绍了VAE的数学原理,包括如何通过ELBO来训练VAE,以及VAE的生成过程。最后,我们还介绍了层级VAEs (HVAEs),它是一种能够捕捉不同尺度数据特征的VAE。

生成模型 (1.1)

变分推断

本文从变分的视角介绍了生成模型,深入探讨了变分推断的数学原理和应用。变分推断是一种用于估计未知分布的方法,通过最小化与真实分布的差异来找到最优的近似分布。文中详细推导了变分推断的求解过程,包括变分下界 (ELBO) 的引入和最大化。最后,文章展示了两种求解变分推断的方法。

生成模型 (0)

Overview of Deep Generative Modeling

本文探讨了生成式建模的基本概念和数学建模介绍了一些经典的模型,包括VAE、DDPM、Flow Matching和GAN。通过这些内容,读者可以对生成式建模有一个全面的了解,为后续的学习打下基础。

论文推荐:通过拟合整个奖励分布进行强化学习

FlowRL: Matching Reward Distributions for LLM Reasoning

现有的RL方法都以最大化奖励为目标,这种导向在复杂推理任务中极易容易导致模式崩溃:即模型反复收敛至单一的成功推理路径,从而忽略了其他潜在的更优解或多样化的解法。FlowRL将强化学习的优化逻辑从“最大化奖励”改为“匹配奖励分布”,模型不再仅仅追逐单一的高分答案,而是致力于学习所有有效推理路径的概率分布,从而实现了更高效的探索,克服了以往RL方法中可能存在的模式坍缩问题。