Zifeng Mai's Blog

Keep scaling and you will meet your aha moment.

论文推荐:NVIDIA Nemotron 3 Super 技术解读

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA 正式发布了 Nemotron 3 Super,这是一个专为 AI 智能体设计的开源大模型。工作的主要创新包括:混合 Mamba-Transformer 架构、Latent MoE、多 token 预测以及原生使用 NVFP4 预训练等。这种设计在保持高效推理的同时,实现了强大的推理和编码能力。

FlashAttention 系列

本文系统介绍了 FlashAttention 系列工作的技术演进,从 FlashAttention 1 的 IO-aware 设计,到 FlashAttention 2 的并行化优化,再到后续版本针对 H100 和 Blackwell 架构的硬件适配。通过本文,读者可以理解高效 Attention 实现的核心思想,以及硬件感知算法设计的重要性。

等周不等式

周长为定值时,面积最大的封闭图形是圆

在本文中,我们主要介绍了高斯过程的一些应用,作为习题课来增强读者对于高斯分布的理解。其中的内容包括:DDPM、线性高斯系统、条件高斯分布的一些计算等。

随机过程(7)

习题课:高斯过程的应用

在本文中,我们主要介绍了高斯过程的一些应用,作为习题课来增强读者对于高斯分布的理解。其中的内容包括:DDPM、线性高斯系统、条件高斯分布的一些计算等。

随机过程(6)

高斯过程(2): 多元高斯分布

本文是张颢老师随机过程课程笔记的第六篇。在本文中,我们深入介绍了多元高斯分布的一些基本性质,包括其概率密度函数、特征函数和线性性。根据线性性,我们探讨了边缘分布的高斯性与联合分布的高斯性之间的关系。

论文推荐:变分序列级软策略优化

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

强化学习算法需要重要性采样来解决off-policy分布偏移的问题。传统的序列级重要性采样方式虽然理论上无偏,但面临着方差随序列长度指数级爆炸的问题。为此,本文提出了一种基于变分原理的软策略优化方法VESPO,通过将重要性权重塑形问题建模为在方差约束下的变分分布对齐问题,作者推导出了一个闭式解的塑形核函数。该方法无需长度归一化,直接在序列级操作,有效控制了方差。实验表明VESPO在高策略过时率和全异步训练设置下仍能保持稳定,并在MoE模型上取得了优于GRPO和GSPO的效果。