FP8 QAT¶

介绍¶

为了使开发者能够高效地训练ERNIE 4.5模型，并最小化资源需求，我们开发了一种创新的FP8量化感知训练方法。我们的方法带来了两个显著的优势：

如下面的图所示，我们引入了Hadamard矩阵，以确保在张量级静态FP8量化感知训练（QAT）中实现稳定收敛。为了减少计算开销并支持不同的张量形状，我们使用了块对角的Hadamard矩阵，并将标准子矩阵沿对角线放置。

在LLM训练中，GPU内存主要被模型参数、梯度、优化器状态和中间激活所占用。在我们的FP8量化感知训练（QAT）方法中，模型参数以FP8格式存储，而优化器的动量和梯度则使用BF16。此外，所有优化器状态都被卸载到固定内存中，这大大减少了训练过程中GPU内存的使用。