Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

生成模型 (1.1)

变分推断

本文从变分的视角介绍了生成模型,深入探讨了变分推断的数学原理和应用。变分推断是一种用于估计未知分布的方法,通过最小化与真实分布的差异来找到最优的近似分布。文中详细推导了变分推断的求解过程,包括变分下界 (ELBO) 的引入和最大化。最后,文章展示了两种求解变分推断的方法。

生成模型 (0)

Overview of Deep Generative Modeling

本文探讨了生成式建模的基本概念和数学建模介绍了一些经典的模型,包括VAE、DDPM、Flow Matching和GAN。通过这些内容,读者可以对生成式建模有一个全面的了解,为后续的学习打下基础。

论文推荐:通过拟合整个奖励分布进行强化学习

FlowRL: Matching Reward Distributions for LLM Reasoning

现有的RL方法都以最大化奖励为目标,这种导向在复杂推理任务中极易容易导致模式崩溃:即模型反复收敛至单一的成功推理路径,从而忽略了其他潜在的更优解或多样化的解法。FlowRL将强化学习的优化逻辑从“最大化奖励”改为“匹配奖励分布”,模型不再仅仅追逐单一的高分答案,而是致力于学习所有有效推理路径的概率分布,从而实现了更高效的探索,克服了以往RL方法中可能存在的模式坍缩问题。

强化学习基础 (3)

动态规划求解

本文探讨了强化学习中的动态规划 (Dynamic Programming, DP) 算法,DP算法是一种用于求解MDP问题的最优策略的一系列算法,其核心思想在于:利用价值函数来指导和描述能够得到最优策略的搜索方法。文中详细介绍了两种非常经典的DP算法:策略迭代和值迭代,这是现代强化学习算法的基石。最后,文章通过引入巴拿赫不动点理论,从数学上严格证明了DP算法的收敛性。

强化学习基础 (2)

有限马尔可夫过程

本文探讨了强化学习中的有限马尔可夫过程 (Finite Markov Decision Process) 的基本概念和数学建模。文中深入介绍了强化学习中一些非常重要的概念和定义,比如说:策略、价值函数、贝尔曼方程、最优策略等,是理解所有强化学习算法的基础。

强化学习中的熵 (2)

熵安全策略

本文探讨了强化学习中的熵安全 (Policy Safety) 策略,介绍了在近期提出了双边熵安全策略。双边熵安全包括两个方面:1. 防止策略熵坍塌 (entropy collapse);2. 防止策略熵爆炸 (entropy explosion)。这些策略在实际应用中都有很好的效果,能够有效防止策略熵的不稳定,使得我们的模型具有更强的探索性,同时也能够保持模型的收敛性。