LLAMA-3_8B_Unaligned_BETA-GGUF开源模型 - 多量化版本适配不同硬件需求

首页

LLAMA 3 8B Unaligned BETA GGUF

由 bartowski 开发

基于LLaMA-3架构的8B参数未对齐测试版模型，提供多种量化版本以适应不同硬件需求

大型语言模型 #多量化版本 #轻量级部署 #ARM优化

下载量 542

发布时间 : 10/12/2024

模型简介

这是一个8B参数的LLaMA-3未对齐测试版模型，经过多种量化处理，可在不同硬件配置下运行，特别适合本地部署和实验用途

模型特点

多种量化选项

提供从f16到IQ2_M共20种不同量化版本，适应从高性能到低资源的不同需求

imatrix量化技术

使用llama.cpp的imatrix选项进行量化，提高量化后的模型质量

ARM优化版本

特别为ARM芯片提供优化版本(Q4_0_X_X)，可显著提升在ARM设备上的推理速度

嵌入/输出权重优化

部分量化版本(Q3_K_XL、Q4_K_L等)的嵌入和输出权重使用Q8_0量化，可能提升模型质量

模型能力

文本生成

对话系统

内容创作

代码生成

使用案例

本地AI应用

个人AI助手

在本地设备上运行个人AI助手，保护隐私

可在消费级硬件上流畅运行

内容创作工具

用于生成创意写作、故事和诗歌

提供有创意的文本输出

开发与研究

模型量化研究

研究不同量化方法对模型性能的影响

提供多种量化版本供比较

边缘AI实验

在资源受限设备上部署大型语言模型

小至3GB的量化版本可在低端设备运行

🚀 LLAMA-3_8B_Unaligned_BETA的Llamacpp imatrix量化版本

本项目提供了LLAMA-3_8B_Unaligned_BETA模型的量化版本，借助量化技术可在不同硬件条件下更高效地运行模型。

🚀 快速开始

运行环境

可在 LM Studio 中运行这些量化模型。

下载文件

可从下方表格中选择所需的量化文件进行下载：

文件名	量化类型	文件大小	拆分情况	描述
LLAMA-3_8B_Unaligned_BETA-f16.gguf	f16	16.07GB	否	完整的F16权重。
LLAMA-3_8B_Unaligned_BETA-Q8_0.gguf	Q8_0	8.54GB	否	极高质量，通常不需要，但为最大可用量化。
LLAMA-3_8B_Unaligned_BETA-Q6_K_L.gguf	Q6_K_L	6.85GB	否	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
LLAMA-3_8B_Unaligned_BETA-Q6_K.gguf	Q6_K	6.60GB	否	非常高质量，接近完美，推荐。
LLAMA-3_8B_Unaligned_BETA-Q5_K_L.gguf	Q5_K_L	6.06GB	否	嵌入和输出权重使用Q8_0。高质量，推荐。
LLAMA-3_8B_Unaligned_BETA-Q5_K_M.gguf	Q5_K_M	5.73GB	否	高质量，推荐。
LLAMA-3_8B_Unaligned_BETA-Q5_K_S.gguf	Q5_K_S	5.60GB	否	高质量，推荐。
LLAMA-3_8B_Unaligned_BETA-Q4_K_L.gguf	Q4_K_L	5.31GB	否	嵌入和输出权重使用Q8_0。良好质量，推荐。
LLAMA-3_8B_Unaligned_BETA-Q4_K_M.gguf	Q4_K_M	4.92GB	否	良好质量，大多数用例的默认大小，推荐。
LLAMA-3_8B_Unaligned_BETA-Q3_K_XL.gguf	Q3_K_XL	4.78GB	否	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
LLAMA-3_8B_Unaligned_BETA-Q4_K_S.gguf	Q4_K_S	4.69GB	否	质量稍低但节省空间，推荐。
LLAMA-3_8B_Unaligned_BETA-Q4_0.gguf	Q4_0	4.68GB	否	旧格式，通常在类似大小的格式中不值得使用
LLAMA-3_8B_Unaligned_BETA-Q4_0_8_8.gguf	Q4_0_8_8	4.66GB	否	针对ARM推理优化。需要'sve'支持（见下方链接）。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-Q4_0_4_8.gguf	Q4_0_4_8	4.66GB	否	针对ARM推理优化。需要'i8mm'支持（见下方链接）。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-Q4_0_4_4.gguf	Q4_0_4_4	4.66GB	否	针对ARM推理优化。应该在所有ARM芯片上都能良好工作，如果不确定可以选择这个。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-IQ4_XS.gguf	IQ4_XS	4.45GB	否	质量不错，比Q4_K_S小且性能相似，推荐。
LLAMA-3_8B_Unaligned_BETA-Q3_K_L.gguf	Q3_K_L	4.32GB	否	质量较低但可用，适合低内存情况。
LLAMA-3_8B_Unaligned_BETA-Q3_K_M.gguf	Q3_K_M	4.02GB	否	低质量。
LLAMA-3_8B_Unaligned_BETA-IQ3_M.gguf	IQ3_M	3.78GB	否	中低质量，新方法且性能不错，与Q3_K_M相当。
LLAMA-3_8B_Unaligned_BETA-Q2_K_L.gguf	Q2_K_L	3.69GB	否	嵌入和输出权重使用Q8_0。质量非常低但出人意料地可用。
LLAMA-3_8B_Unaligned_BETA-Q3_K_S.gguf	Q3_K_S	3.66GB	否	低质量，不推荐。
LLAMA-3_8B_Unaligned_BETA-IQ3_XS.gguf	IQ3_XS	3.52GB	否	质量较低，新方法且性能不错，略优于Q3_K_S。
LLAMA-3_8B_Unaligned_BETA-Q2_K.gguf	Q2_K	3.18GB	否	质量非常低但出人意料地可用。
LLAMA-3_8B_Unaligned_BETA-IQ2_M.gguf	IQ2_M	2.95GB	否	相对低质量，使用最先进技术，出人意料地可用。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多量化类型支持：提供了多种量化类型的文件，可根据不同的硬件资源和性能需求进行选择。
ARM芯片优化：部分量化类型针对ARM芯片进行了优化，可显著提升推理速度。
嵌入/输出权重调整：部分量化文件对嵌入和输出权重进行了特殊处理，可能会提高模型质量。

📦 安装指南

安装huggingface-cli

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载指定文件

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于50GB，它将被拆分为多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如LLAMA-3_8B_Unaligned_BETA-Q8_0），也可以将它们全部下载到当前目录（./）。

📚 详细文档

嵌入/输出权重说明

部分量化文件（如Q3_K_XL、Q4_K_L等）采用了标准量化方法，但将嵌入和输出权重量化为Q8_0，而不是默认值。有人认为这可以提高质量，也有人认为没有明显差异。如果你使用了这些模型，请评论分享你的发现，以便了解这些量化文件是否真正有用。

Q4_0_X_X量化类型说明

这些量化类型不适合Metal（苹果）卸载，仅适用于ARM芯片。如果你使用的是ARM芯片，Q4_0_X_X量化类型将显著提高速度。你可以查看原始拉取请求中的Q4_0_4_4速度比较。要确定哪种量化类型最适合你的ARM芯片，可以查看 AArch64 SoC特性。

如何选择文件

Artefact2 提供了一篇很棒的文章，其中包含显示各种性能的图表，可参考此处。选择文件时，首先要确定你可以运行的模型大小，这需要了解你拥有的RAM和/或VRAM容量。

追求最快速度：如果希望模型尽可能快地运行，应选择文件大小比GPU的总VRAM小1 - 2GB的量化文件，以便将整个模型放入GPU的VRAM中。
追求最高质量：如果追求绝对最高质量，将系统RAM和GPU的VRAM相加，然后选择文件大小比该总和小1 - 2GB的量化文件。

接下来，你需要决定是否使用'I-quant'或'K-quant'：

不想过多考虑：可以选择K-quant，格式为'QX_K_X'，如Q5_K_M。
想深入了解：可以查看 llama.cpp特性矩阵。一般来说，如果你希望量化级别低于Q4，并且使用cuBLAS（Nvidia）或rocBLAS（AMD），可以考虑I-quant，格式为IQX_X，如IQ3_M。这些是较新的量化类型，在相同大小下提供更好的性能。

I-quant也可以在CPU和Apple Metal上使用，但速度会比K-quant慢，因此需要在速度和性能之间进行权衡。此外，I-quant与Vulcan（也是AMD）不兼容，因此如果你使用的是AMD显卡，请仔细检查你使用的是rocBLAS版本还是Vulcan版本。在撰写本文时，LM Studio有一个支持ROCm的预览版，其他推理引擎也有针对ROCm的特定版本。