llama-3-cat-8b-instruct-v1-GGUF开源模型 - 适用资源受限环境，免费使用！

首页

Llama 3 Cat 8b Instruct V1 GGUF

由 bartowski 开发

这是基于Meta的Llama 3架构的8B参数指令微调模型，经过GGUF量化处理，适用于资源受限环境。

大型语言模型 #高精度量化 #指令微调 #多轮对话

下载量 909

发布时间 : 5/13/2024

模型简介

该模型是Llama 3的指令微调版本，专门针对对话和指令跟随任务进行了优化，提供多种量化版本以适应不同硬件需求。

模型特点

多量化版本

提供从Q8_0到IQ1_S共20种量化版本，适应不同硬件配置和性能需求。

指令优化

专门针对指令跟随任务进行微调，适合对话和交互式应用场景。

高效推理

使用llama.cpp进行优化，在消费级硬件上也能实现高效推理。

模型能力

文本生成

对话系统

指令理解与执行

多轮对话

使用案例

对话系统

智能助手

构建能理解复杂指令的个人助手

可流畅进行多轮对话并执行任务

教育应用

学习辅导

作为学习辅导工具回答学生问题

能解释复杂概念并提供学习建议

🚀 Llama-3-cat-8b-instruct-v1的Llamacpp imatrix量化版本

本项目是对llama-3-cat-8b-instruct-v1模型进行的量化处理，使用特定工具和方法生成了不同量化类型的模型文件，方便在不同硬件条件下使用。

🚀 快速开始

下载安装依赖

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载指定文件

你可以根据需求下载特定的量化文件，例如：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

处理大模型文件

如果模型文件大于50GB，它会被拆分成多个文件。若要将它们全部下载到本地文件夹，可以运行以下命令：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False

你可以指定一个新的本地目录（如llama-3-cat-8b-instruct-v1-Q8_0），也可以将它们全部下载到当前目录（./）。

✨ 主要特性

多量化类型：提供了多种量化类型的模型文件，如Q8_0、Q6_K、Q5_K_M等，可根据不同的硬件条件和性能需求进行选择。
性能优化：部分量化类型采用了新的方法，在保证一定质量的前提下，提供了更好的性能和更小的文件大小。
兼容性：支持在不同的硬件平台上运行，包括CPU、GPU（Nvidia、AMD）和Apple Metal等。

📦 安装指南

安装依赖

使用以下命令安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载模型文件

根据自己的需求，使用huggingface-cli下载相应的量化文件。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 详细文档

模型信息

原始模型：https://huggingface.co/TheSkullery/llama-3-cat-8b-instruct-v1
量化工具：使用 llama.cpp 的 b2854 版本进行量化。
量化数据集：所有量化文件均使用imatrix选项，并使用了Kalomaze提供的数据集，详情见此处。

下载文件列表

文件名	量化类型	文件大小	描述
llama-3-cat-8b-instruct-v1-Q8_0.gguf	Q8_0	8.54GB	极高质量，通常不需要，但为最大可用量化类型。
llama-3-cat-8b-instruct-v1-Q6_K.gguf	Q6_K	6.59GB	非常高质量，接近完美，推荐。
llama-3-cat-8b-instruct-v1-Q5_K_M.gguf	Q5_K_M	5.73GB	高质量，推荐。
llama-3-cat-8b-instruct-v1-Q5_K_S.gguf	Q5_K_S	5.59GB	高质量，推荐。
llama-3-cat-8b-instruct-v1-Q4_K_M.gguf	Q4_K_M	4.92GB	良好质量，每个权重约使用4.83位，推荐。
llama-3-cat-8b-instruct-v1-Q4_K_S.gguf	Q4_K_S	4.69GB	质量略低，但节省更多空间，推荐。
llama-3-cat-8b-instruct-v1-IQ4_NL.gguf	IQ4_NL	4.67GB	质量不错，比`Q4_K_S`略小，性能相似，推荐。
llama-3-cat-8b-instruct-v1-IQ4_XS.gguf	IQ4_XS	4.44GB	质量不错，比`Q4_K_S`小，性能相似，推荐。
llama-3-cat-8b-instruct-v1-Q3_K_L.gguf	Q3_K_L	4.32GB	质量较低但可用，适合低内存情况。
llama-3-cat-8b-instruct-v1-Q3_K_M.gguf	Q3_K_M	4.01GB	质量更低。
llama-3-cat-8b-instruct-v1-IQ3_M.gguf	IQ3_M	3.78GB	中低质量，新方法，性能与`Q3_K_M`相当。
llama-3-cat-8b-instruct-v1-IQ3_S.gguf	IQ3_S	3.68GB	质量较低，新方法，性能不错，推荐使用，比`Q3_K_S`量化类型相同大小下性能更好。
llama-3-cat-8b-instruct-v1-Q3_K_S.gguf	Q3_K_S	3.66GB	质量低，不推荐。
llama-3-cat-8b-instruct-v1-IQ3_XS.gguf	IQ3_XS	3.51GB	质量较低，新方法，性能不错，略优于`Q3_K_S`。
llama-3-cat-8b-instruct-v1-IQ3_XXS.gguf	IQ3_XXS	3.27GB	质量较低，新方法，性能不错，与`Q3`量化类型相当。
llama-3-cat-8b-instruct-v1-Q2_K.gguf	Q2_K	3.17GB	质量非常低，但出人意料地可用。
llama-3-cat-8b-instruct-v1-IQ2_M.gguf	IQ2_M	2.94GB	质量非常低，使用了最先进的技术，出人意料地可用。
llama-3-cat-8b-instruct-v1-IQ2_S.gguf	IQ2_S	2.75GB	质量非常低，使用了最先进的技术，可用。
llama-3-cat-8b-instruct-v1-IQ2_XS.gguf	IQ2_XS	2.60GB	质量非常低，使用了最先进的技术，可用。
llama-3-cat-8b-instruct-v1-IQ2_XXS.gguf	IQ2_XXS	2.39GB	质量较低，使用了最先进的技术，可用。
llama-3-cat-8b-instruct-v1-IQ1_M.gguf	IQ1_M	2.16GB	质量极低，不推荐。
llama-3-cat-8b-instruct-v1-IQ1_S.gguf	IQ1_S	2.01GB	质量极低，不推荐。

如何选择文件

Artefact2在此处提供了一份很棒的带有图表的文章，展示了各种量化类型的性能。

确定可运行的模型大小：首先，你需要确定自己有多少内存（RAM）和/或显存（VRAM）。
- 如果你希望模型运行得尽可能快，你需要将整个模型加载到GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化类型。
- 如果你追求绝对的最高质量，将系统内存和GPU显存相加，然后选择文件大小比这个总和小1 - 2GB的量化类型。
选择'I-quant'还是'K-quant'：
- 如果你不想考虑太多，选择K-quant类型，格式为QX_K_X，如Q5_K_M。
- 如果你想深入了解，可以查看 llama.cpp特性矩阵。一般来说，如果你追求低于Q4的量化类型，并且使用的是cuBLAS（Nvidia）或rocBLAS（AMD），可以选择I-quant类型，格式为IQX_X，如IQ3_M。这些类型较新，在相同大小下提供更好的性能。
- I-quant类型也可以在CPU和Apple Metal上使用，但比相应的K-quant类型慢，因此你需要在速度和性能之间进行权衡。
- I-quant类型与Vulcan（也是AMD）不兼容，所以如果你使用的是AMD显卡，请仔细检查你使用的是rocBLAS版本还是Vulcan版本。在撰写本文时，LM Studio有一个支持ROCm的预览版，其他推理引擎也有针对ROCm的特定版本。