翻译|张雪聃、刘乾裕、林心宇
将模型量化为较低精度格式(如8-bit或4-bit)可以显著降低计算成本并加速推理过程。然而,有个关键问题一直存在:这些量化模型是否能保持与未压缩模型相同的精确度和质量。
最近,机器学习社区对此产生了较大担忧:量化的大语言模型是否真能在精确度和生成质量上与原始模型媲美?
在本文中,我们将正面回应这些担忧,并解答一个核心问题:量化LLM究竟会牺牲多少精确度?
为此,我们在多个基准测试上进行了超过五十万次评估,涵盖学术数据集、真实场景任务以及人工检查,严格测试了我们最新的量化模型。
我们的研究结果揭示了社区担忧的几个可能来源,例如过于敏感的评估、对聊天模板格式敏感的模型以及广泛使用的量化算法中超参数调优的不足。通过解决这些问题,我们推出了高精确度的量化模型,这些模型与原始精度模型几乎没有明显差异。
1
方法与思路
W8A8-INT:将权重和激活值量化为8-bit整数值,适用于Nvidia Ampere (A100 GPU)及较旧硬件的服务器或高吞吐量场景。此方案可实现2倍模型压缩,并在多请求服务器场景中平均提升约1.8倍性能加速。
W8A8-FP:采用8-bit浮点格式而不是整数值表示权重和激活值,简化了压缩过程,仅支持Nvidia Hopper (H100)和Ada Lovelace等最新硬件。此方案也提供2倍模型压缩,并在多请求服务器场景中实现1.8倍性能提升。
W4A16-INT:将权重量化为4-bit整数,激活值保持16-bit精度。适用于对时延敏感的边缘场景或单一请求任务,其中模型大小和单请求响应时间是关键因素。这意味着模型推理主要受限于加载权重的内存访问,而不是计算密集型操作。该方案可实现3.5倍模型压缩,并在单个流数据场景中提供2.4倍速度提升。
真实场景基准测试(Real-World Benchmarks):这些基准测试模拟人类使用场景,如指令执行、对话和代码生成,涵盖了更广泛的任务,并更好地反映模型在实际环境中的表现。包括ArenaHard和HumanEval等测试,能更全面地展示模型在动态环境中的能力。
文本相似度评估(Text Similarity):我们通过ROUGE、BERTScore和语义文本相似度(STS)等指标,评估量化模型与未量化模型输出的匹配度。这些指标衡量生成文本在语义和结构上的一致性,确保其意义和质量得以保留。
2
学术基准表现
Leaderboard v1基准涵盖了多种主题,包括:
小学数学:GSM8k 世界知识与推理:MMLU, ARC-Challenge 语言理解:Winogrande, HellaSwag 真实性:TruthfulQA
专家知识与推理:MMLU-Pro、GPQA、Big Bench Hard 多步推理:MuSR 高级数学问题:MATH Level 5 指令跟随:IFEval
3
真实世界基准表现
这些结果表明,量化模型不仅在较简单的编码任务中保持高性能,而且在较复杂的场景中也表现优异,证明了它们在实际编码应用中的可靠性,并且准确率损失最小。
4
文本相似度与人工检查
ROUGE-1用于衡量量化模型和未量化模型输出之间的词级重叠程度。
ROUGE-L通过关注最长公共子序列来捕获结构相似性。
BERTScore在词元层面评估上下文相似性。
STS在句子层面评估整体语义相似性。
指标基于ArenaHard提示生成的响应计算得出,使我们能够分析量化模型在保持输出的意义和结构方面与全精度模型相比的表现如何。结果汇总如下图6所示。
5
量化为何会继续存在
性能一致:8-bit和4-bit量化LLM在各种基准测试中表现出非常有竞争力的准确度恢复,包括Arena-Hard、OpenLLM Leaderboards v1和v2以及HumanEval和HumanEval+等编码基准测试。
最小权衡:较大模型(70B、405B)表现出可忽略不计的性能下降。相比之下,较小的模型(8B)可能会出现轻微的变化,但仍保留其输出的核心语义和结构一致性。
高效和可扩展:量化实现了显著地节省计算成本,并有更快的推理速度,同时保持了响应的语义质量和可靠性。
其他人都在看