Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

生成式推荐系统中的预测解码加速

系统介绍生成式推荐系统中预测解码(Speculative Decoding)技术的最新进展,涵盖 AtSpeed (ICLR'25)、LASER (SIGIR'25)、NEZHA (WWW'26) 和 SpecGR (AAAI'26) 四项代表性工作。

优化器 (3)

Gram Newton-Schulz

本文介绍了 Gram Newton-Schulz 算法,这是 Muon 优化器中 Newton-Schulz 正交化过程的高效变体。通过在 Gram 矩阵上迭代而非原矩阵,Gram Newton-Schulz 显著减少了 FLOPs 和运行时间。本文详细推导了算法的数学原理,分析了数值稳定性问题,并给出了完整的理论证明。

论文推荐:个性化搜索中的知识-动作对齐

KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

使用LLM对个性化搜索进行语义增强时会遇到Knowledge-Action Gap问题。LLM 预训练获得的丰富语义知识与个性化任务中的判别性目标存在内在冲突。淘宝团队提出了KARMA,将语义重建作为训练时的正则化器,让表征不仅能与用户行为对齐,还能保持语义可解码性。

论文推荐:NVIDIA Nemotron 3 Super 技术解读

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA 正式发布了 Nemotron 3 Super,这是一个专为 AI 智能体设计的开源大模型。工作的主要创新包括:混合 Mamba-Transformer 架构、Latent MoE、多 token 预测以及原生使用 NVFP4 预训练等。这种设计在保持高效推理的同时,实现了强大的推理和编码能力。

FlashAttention 系列

本文系统介绍了 FlashAttention 系列工作的技术演进,从 FlashAttention 1 的 IO-aware 设计,到 FlashAttention 2 的并行化优化,再到后续版本针对 H100 和 Blackwell 架构的硬件适配。通过本文,读者可以理解高效 Attention 实现的核心思想,以及硬件感知算法设计的重要性。

等周不等式

周长为定值时,面积最大的封闭图形是圆

在本文中,我们主要介绍了高斯过程的一些应用,作为习题课来增强读者对于高斯分布的理解。其中的内容包括:DDPM、线性高斯系统、条件高斯分布的一些计算等。