🚀 LLAMA-3_8B_Unaligned_BETA的Llamacpp imatrix量化版本
本项目提供了LLAMA-3_8B_Unaligned_BETA模型的量化版本,借助量化技术可在不同硬件条件下更高效地运行模型。
🚀 快速开始
运行环境
可在 LM Studio 中运行这些量化模型。
下载文件
可从下方表格中选择所需的量化文件进行下载:
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
✨ 主要特性
- 多量化类型支持:提供了多种量化类型的文件,可根据不同的硬件资源和性能需求进行选择。
- ARM芯片优化:部分量化类型针对ARM芯片进行了优化,可显著提升推理速度。
- 嵌入/输出权重调整:部分量化文件对嵌入和输出权重进行了特殊处理,可能会提高模型质量。
📦 安装指南
安装huggingface-cli
首先,确保你已经安装了huggingface-cli:
pip install -U "huggingface_hub[cli]"
下载指定文件
然后,你可以指定要下载的特定文件:
huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q4_K_M.gguf" --local-dir ./
下载拆分文件
如果模型大于50GB,它将被拆分为多个文件。要将它们全部下载到本地文件夹,请运行:
huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q8_0/*" --local-dir ./
你可以指定一个新的本地目录(如LLAMA-3_8B_Unaligned_BETA-Q8_0),也可以将它们全部下载到当前目录(./)。
📚 详细文档
嵌入/输出权重说明
部分量化文件(如Q3_K_XL、Q4_K_L等)采用了标准量化方法,但将嵌入和输出权重量化为Q8_0,而不是默认值。有人认为这可以提高质量,也有人认为没有明显差异。如果你使用了这些模型,请评论分享你的发现,以便了解这些量化文件是否真正有用。
Q4_0_X_X量化类型说明
这些量化类型不适合Metal(苹果)卸载,仅适用于ARM芯片。如果你使用的是ARM芯片,Q4_0_X_X量化类型将显著提高速度。你可以查看 原始拉取请求 中的Q4_0_4_4速度比较。要确定哪种量化类型最适合你的ARM芯片,可以查看 AArch64 SoC特性。
如何选择文件
Artefact2 提供了一篇很棒的文章,其中包含显示各种性能的图表,可参考 此处。选择文件时,首先要确定你可以运行的模型大小,这需要了解你拥有的RAM和/或VRAM容量。
- 追求最快速度:如果希望模型尽可能快地运行,应选择文件大小比GPU的总VRAM小1 - 2GB的量化文件,以便将整个模型放入GPU的VRAM中。
- 追求最高质量:如果追求绝对最高质量,将系统RAM和GPU的VRAM相加,然后选择文件大小比该总和小1 - 2GB的量化文件。
接下来,你需要决定是否使用'I-quant'或'K-quant':
- 不想过多考虑:可以选择K-quant,格式为'QX_K_X',如Q5_K_M。
- 想深入了解:可以查看 llama.cpp特性矩阵。一般来说,如果你希望量化级别低于Q4,并且使用cuBLAS(Nvidia)或rocBLAS(AMD),可以考虑I-quant,格式为IQX_X,如IQ3_M。这些是较新的量化类型,在相同大小下提供更好的性能。
I-quant也可以在CPU和Apple Metal上使用,但速度会比K-quant慢,因此需要在速度和性能之间进行权衡。此外,I-quant与Vulcan(也是AMD)不兼容,因此如果你使用的是AMD显卡,请仔细检查你使用的是rocBLAS版本还是Vulcan版本。在撰写本文时,LM Studio有一个支持ROCm的预览版,其他推理引擎也有针对ROCm的特定版本。
🔧 技术细节
本项目使用 llama.cpp 的 b3901 版本进行量化。原始模型可在 此处 找到。所有量化文件均使用imatrix选项,并使用 此处 的数据集。
📄 许可证
文档中未提及许可证相关信息。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发了对嵌入/输出的实验。
如果你想支持作者的工作,可以访问作者的ko-fi页面:https://ko-fi.com/bartowski