Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

强化学习基础 (3)

动态规划求解

本文探讨了强化学习中的动态规划 (Dynamic Programming, DP) 算法，DP算法是一种用于求解MDP问题的最优策略的一系列算法，其核心思想在于：利用价值函数来指导和描述能够得到最优策略的搜索方法。文中详细介绍了两种非常经典的DP算法：策略迭代和值迭代，这是现代强化学习算法的基石。最后，文章通过引入巴拿赫不动点理论，从数学上严格证明了DP算法的收敛性。

Posted by Zifeng Mai on October 25, 2025

强化学习基础 (2)

有限马尔可夫过程

本文探讨了强化学习中的有限马尔可夫过程 (Finite Markov Decision Process) 的基本概念和数学建模。文中深入介绍了强化学习中一些非常重要的概念和定义，比如说：策略、价值函数、贝尔曼方程、最优策略等，是理解所有强化学习算法的基础。

Posted by Zifeng Mai on October 11, 2025

强化学习中的熵 (2)

熵安全策略

本文探讨了强化学习中的熵安全 (Policy Safety) 策略，介绍了在近期提出了双边熵安全策略。双边熵安全包括两个方面：1. 防止策略熵坍塌 (entropy collapse)；2. 防止策略熵爆炸 (entropy explosion)。这些策略在实际应用中都有很好的效果，能够有效防止策略熵的不稳定，使得我们的模型具有更强的探索性，同时也能够保持模型的收敛性。

Posted by Zifeng Mai on October 9, 2025

强化学习中的熵 (1)

策略熵

本文探讨了强化学习中的策略熵 (policy entropy)，主要从理论上回答了两大问题：1. 为什么熵减往往意味着训练收敛；2. 策略梯度算法如何改变策略熵。从这两个问题的答案我们可以看出，策略梯度算法会导致策略熵的减小，从而使得策略收敛下来，这给了我们一个新的视角来看待强化学习的训练过程。

Posted by Zifeng Mai on October 3, 2025

论文推荐：统一精排阶段的特征交叉和序列建模

OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

使用一个 Transformer 模块统一建模非序列特征（特征交叉）和序列特征（序列建模），使得两种特征可以更好地交互，并且借助 LLM 的各种优化手段（kv cache、flash attention、混合精度训练、激活值重计算等）减少推理延迟。

Published by ByteDance on Arxiv at Oct. 2025

强化学习基础 (1)

多臂赌博机

本文探讨了强化学习中的多臂赌博机模型，包括如何估计动作价值函数（即Q值）、如何选择下一个动作、如何利用梯度方法求解最优策略等。本文作为强化学习基础系列的开篇，读者可以从中感受到强化学习的基本思想以及理论框架。

Posted by Zifeng Mai on September 25, 2025

FEATURED TAGS

Reinforcement Learning Recommender System Policy Entropy Finite Markov Decision Process Generative Modeling Flow Matching Optimizer Optimization Theory Stochastic Process

ABOUT ME

Math, Deep Learning, LLMs, Reinforcement Learning, Recommender, Search system

扫码关注我的公众号

✉️ 654147900@qq.com

✉️ maizf3@mail2.sysu.edu.cn

✉️ maizifeng253@gmail.com