Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

强化学习基础 (3)

动态规划求解

本文探讨了强化学习中的动态规划 (Dynamic Programming, DP) 算法,DP算法是一种用于求解MDP问题的最优策略的一系列算法,其核心思想在于:利用价值函数来指导和描述能够得到最优策略的搜索方法。文中详细介绍了两种非常经典的DP算法:策略迭代和值迭代,这是现代强化学习算法的基石。最后,文章通过引入巴拿赫不动点理论,从数学上严格证明了DP算法的收敛性。

强化学习基础 (2)

有限马尔可夫过程

本文探讨了强化学习中的有限马尔可夫过程 (Finite Markov Decision Process) 的基本概念和数学建模。文中深入介绍了强化学习中一些非常重要的概念和定义,比如说:策略、价值函数、贝尔曼方程、最优策略等,是理解所有强化学习算法的基础。

强化学习中的熵 (2)

熵安全策略

本文探讨了强化学习中的熵安全 (Policy Safety) 策略,介绍了在近期提出了双边熵安全策略。双边熵安全包括两个方面:1. 防止策略熵坍塌 (entropy collapse);2. 防止策略熵爆炸 (entropy explosion)。这些策略在实际应用中都有很好的效果,能够有效防止策略熵的不稳定,使得我们的模型具有更强的探索性,同时也能够保持模型的收敛性。

强化学习中的熵 (1)

策略熵

本文探讨了强化学习中的策略熵 (policy entropy),主要从理论上回答了两大问题:1. 为什么熵减往往意味着训练收敛;2. 策略梯度算法如何改变策略熵。从这两个问题的答案我们可以看出,策略梯度算法会导致策略熵的减小,从而使得策略收敛下来,这给了我们一个新的视角来看待强化学习的训练过程。

论文推荐:统一精排阶段的特征交叉和序列建模

OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

使用一个 Transformer 模块统一建模非序列特征(特征交叉)和序列特征(序列建模),使得两种特征可以更好地交互,并且借助 LLM 的各种优化手段(kv cache、flash attention、混合精度训练、激活值重计算等)减少推理延迟。

强化学习基础 (1)

多臂赌博机

本文探讨了强化学习中的多臂赌博机模型,包括如何估计动作价值函数(即Q值)、如何选择下一个动作、如何利用梯度方法求解最优策略等。本文作为强化学习基础系列的开篇,读者可以从中感受到强化学习的基本思想以及理论框架。