Skip to content

GGUF格式和LLM量化类型

Apr 5, 2025

全栈开发者

GGUF 格式

LLM GGUF 格式是一种用于存储大型语言模型（LLM）的文件格式，特别是那些与 Llama.cpp 库一起使用的模型。GGUF 是 “GG Ultra Fast” 的缩写，它旨在提供一种高效且可移植的方式来存储和加载 LLM。

GGUF 格式的关键特性包括：

高效性： GGUF 格式的设计考虑了性能，允许 Llama.cpp 快速加载和处理模型数据。
可移植性： GGUF 文件可以在不同的硬件和操作系统之间共享，从而提高了 LLM 的可用性。
灵活性： GGUF 格式支持各种模型架构和数据类型，使其能够适应不断发展的 LLM 领域。
向后兼容性: GGUF 格式设计为向后兼容，这意味着新版本的 Llama.cpp 仍然可以读取旧版本的 GGUF 文件。

总而言之，GGUF 格式是一种专门为 LLM 设计的存储格式，它强调效率、可移植性和灵活性。它在 Llama.cpp 生态系统中被广泛使用，并帮助实现了各种设备上 LLM 的高效部署。

使用 GGUF 格式

Model 转换工具

Hugging Face 平台为使用 Llama.cpp 进行模型转换、量化和托管提供了各种在线工具：

GGUF-my-repo space：用于转换为 GGUF 格式，并将模型权重量化为更小的尺寸。

GGUF-my-LoRA space：用于将 LoRA 适配器转换为 GGUF 格式。

GGUF-editor space：用于在浏览器中编辑 GGUF 元数据。

Inference Endpoints：用于在云中直接托管 Llama.cpp 。

Quantization 参数

在 LLM 的 GGUF 格式中，Quantization 参数用于指定模型的量化方式。量化是一种模型压缩技术，通过降低模型参数的精度，来减少模型的大小和内存占用，同时提高推理速度。以下是 Quantization 参数中各种取值的含义：

q2_K：
- 2 位量化，是最小的量化方式，可以实现最小的模型大小和最快的推理速度。
- 但精度损失最大，适用于对精度要求不高的场景。
q3_K_M：
- 3 位量化，精度比 q2_K 稍高，速度稍慢。
- 适用于对精度有一定要求的场景。
q4_0：
- 4 位量化，是常用的量化方式，可以在模型大小、速度和精度之间取得较好的平衡。
- 适用于大多数场景。
q4_K_M：
- 4 位量化，精度比 q4_0 稍高，速度稍慢。
- 适用于对精度有较高要求的场景。
q5_0：
- 5 位量化，精度比 q4 系列更高，速度稍慢。
- 适用于需要更高精度的场景。
q5_K_M：
- 5 位量化，精度比 q5_0 更高，速度稍慢。
- 适用于对精度有更高要求的场景。
q6_K：
- 6 位量化，精度较高，速度较慢。
- 适用于对精度要求很高的场景。
q8_0： - 8 位量化，精度最高，速度最慢。- 适用于对精度要求极高的场景。

总结：

q 表示量化，后面的数字表示量化的位数。
K 和 M 表示不同的量化方法，它们在精度和速度之间有所权衡。
量化位数越低，模型越小，速度越快，但精度越低。
量化位数越高，模型越大，速度越慢，但精度越高。

参考