Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

随机过程(1)

线性相关

本文是张颢老师随机过程课程笔记的第一篇。文中主要介绍了两个随机变量之间的线性相关关系,从定性分析和符号化定义的角度,介绍了如何刻画两个随机变量之间的线性相关关系。

论文推荐:RFT的熵动力学分析

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

本文从理论角度分析了RFT(Reinforcement Fine-Tuning)过程中经常出现的熵坍塌 (Entropy Collapse) 现象。作者构建了一个描述token级别熵变化的理论模型,通过推导单个Logit更新对策略熵的一阶影响,提出了熵判别器分数(Entropy Discriminator Score)的核心概念。理论表明,策略熵的变化方向由更新方向与的判别器分数的符号共同决定。基于此,文章解释了为何奖励高置信度的答案会导致探索能力丧失,并统一了现有多种熵控制方法的理论解释。最后,作者提出了两种梯度截断算法,在不引入额外超参的情况下,有效缓解了熵坍塌现象,显著提升了模型在数学推理任务中的探索能力。

优化器 (2)

Muon

本文介绍了一种新的优化器Muon。与SGD和Adam等优化器不同,Muon将参数看作一个矩阵,而不是一个向量。这使得Muon能够更好地利用参数的结构信息,获得更稳定的训练过程、更快的收敛速度以及更高的性能上限。在本文中详细介绍了Muon的数学原理,并从范数理论的视角来分析了Muon的优势所在。最后,本文结合Kimi在大规模LLM预训练场景下的实践经验,介绍了几个将Muon应用在大规模模型训练上的经验和工程优化。

优化器 (1)

SGD和Adam

本文深入探讨了机器学习优化器的基本原理,从梯度下降开始,逐步深入以SGD和Adam为代表的现代机器学习优化器,展示了其理论基础和工程实践相结合的魅力。此外,本文从动力学的视角理解了某些优化器,可以为读者提供一些新的理解和启发。

论文推荐:利用PRM监督生成式推荐模型

PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations

利用PRM监督生成式推荐模型的中间解码步骤,并由此获得test-time scaling的能力,在推理阶段仅需增加少量计算量就能稳定提升性能。

论文推荐:多目标优化对齐

HarmonRank: Ranking-aligned Multi-objective Ensemble for Live-streaming E-commerce Recommendation

将优化目标与AUC指标对齐、多目标之间相互对齐。1. 与AUC指标对齐的端到端排序优化:利用可微分排序直接端到端地优化多目标AUC总和,不需要使用间接的分类或回归的代理损失。2. 两阶段多目标集成范式:将原有的单步集成范式改进为两阶段的Align-and-Emsemble的新范式,显式建模不同目标(购买、评论、关注等)之间的共享排序能力。