Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

优化器 (2)

Muon

本文介绍了一种新的优化器Muon。与SGD和Adam等优化器不同,Muon将参数看作一个矩阵,而不是一个向量。这使得Muon能够更好地利用参数的结构信息,获得更稳定的训练过程、更快的收敛速度以及更高的性能上限。在本文中详细介绍了Muon的数学原理,并从范数理论的视角来分析了Muon的优势所在。最后,本文结合Kimi在大规模LLM预训练场景下的实践经验,介绍了几个将Muon应用在大规模模型训练上的经验和工程优化。

优化器 (1)

SGD和Adam

本文深入探讨了机器学习优化器的基本原理,从梯度下降开始,逐步深入以SGD和Adam为代表的现代机器学习优化器,展示了其理论基础和工程实践相结合的魅力。此外,本文从动力学的视角理解了某些优化器,可以为读者提供一些新的理解和启发。

论文推荐:多目标优化对齐

HarmonRank: Ranking-aligned Multi-objective Ensemble for Live-streaming E-commerce Recommendation

将优化目标与AUC指标对齐、多目标之间相互对齐。1. 与AUC指标对齐的端到端排序优化:利用可微分排序直接端到端地优化多目标AUC总和,不需要使用间接的分类或回归的代理损失。2. 两阶段多目标集成范式:将原有的单步集成范式改进为两阶段的Align-and-Emsemble的新范式,显式建模不同目标(购买、评论、关注等)之间的共享排序能力。

生成模型 (3.3)

Flow Matching

本文介绍了流匹配 (flow matching),一种无需模拟的流模型训练方法。文章详细证明了流匹配是如何通过条件化技巧来构建出从初始分布到目标分布到概率路径,以及如何构建真实的速度场来监督模型的训练。最后,文章通过引入Bregman散度,从最大似然的角度来阐述了流匹配的训练过程。

生成模型 (3.2)

Flow Model

本文深入阐述了流模型 (flow model)。文章首先铺垫了一些概率论和微分方程的预备知识,包括随机向量、微分同胚等。然后,文章详细介绍了流模型的数学表达,证明了流和速度场的等价性,利用连续性方程来建立流和概率路径的关系,并通过证明瞬时换元公式来证明了流的可逆性。最后,文章还介绍了流模型的训练方法,如何通过最大似然估计来训练流模型。

生成模型 (3.1)

Flow-based Method

本文是介绍Flow Matching数学原理的第一篇。由于Flow Matching的数学原理较为复杂,文本的主要目的是为读者从宏观上理解基于流的方法的基本原理,把握其核心思想,并对速度场、流、ODE等概念有个基本的了解。