llama-3-cat-8b-instruct-v1-GGUF開源模型 - 適用資源受限環境，免費使用！

首頁

Llama 3 Cat 8b Instruct V1 GGUF

由bartowski開發

這是基於Meta的Llama 3架構的8B參數指令微調模型，經過GGUF量化處理，適用於資源受限環境。

大型語言模型 #高精度量化 #指令微調 #多輪對話

下載量 909

發布時間 : 5/13/2024

模型概述

該模型是Llama 3的指令微調版本，專門針對對話和指令跟隨任務進行了優化，提供多種量化版本以適應不同硬件需求。

模型特點

多量化版本

提供從Q8_0到IQ1_S共20種量化版本，適應不同硬件配置和性能需求。

指令優化

專門針對指令跟隨任務進行微調，適合對話和交互式應用場景。

高效推理

使用llama.cpp進行優化，在消費級硬件上也能實現高效推理。

模型能力

文本生成

對話系統

指令理解與執行

多輪對話

使用案例

對話系統

智能助手

構建能理解複雜指令的個人助手

可流暢進行多輪對話並執行任務

教育應用

學習輔導

作為學習輔導工具回答學生問題

能解釋複雜概念並提供學習建議

🚀 Llama-3-cat-8b-instruct-v1的Llamacpp imatrix量化版本

本項目是對llama-3-cat-8b-instruct-v1模型進行的量化處理，使用特定工具和方法生成了不同量化類型的模型文件，方便在不同硬件條件下使用。

🚀 快速開始

下載安裝依賴

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載指定文件

你可以根據需求下載特定的量化文件，例如：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

處理大模型文件

如果模型文件大於50GB，它會被拆分成多個文件。若要將它們全部下載到本地文件夾，可以運行以下命令：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False

你可以指定一個新的本地目錄（如llama-3-cat-8b-instruct-v1-Q8_0），也可以將它們全部下載到當前目錄（./）。

✨ 主要特性

多量化類型：提供了多種量化類型的模型文件，如Q8_0、Q6_K、Q5_K_M等，可根據不同的硬件條件和性能需求進行選擇。
性能優化：部分量化類型採用了新的方法，在保證一定質量的前提下，提供了更好的性能和更小的文件大小。
兼容性：支持在不同的硬件平臺上運行，包括CPU、GPU（Nvidia、AMD）和Apple Metal等。

📦 安裝指南

安裝依賴

使用以下命令安裝huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載模型文件

根據自己的需求，使用huggingface-cli下載相應的量化文件。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 詳細文檔

模型信息

原始模型：https://huggingface.co/TheSkullery/llama-3-cat-8b-instruct-v1
量化工具：使用 llama.cpp 的 b2854 版本進行量化。
量化數據集：所有量化文件均使用imatrix選項，並使用了Kalomaze提供的數據集，詳情見此處。

下載文件列表

文件名	量化類型	文件大小	描述
llama-3-cat-8b-instruct-v1-Q8_0.gguf	Q8_0	8.54GB	極高質量，通常不需要，但為最大可用量化類型。
llama-3-cat-8b-instruct-v1-Q6_K.gguf	Q6_K	6.59GB	非常高質量，接近完美，推薦。
llama-3-cat-8b-instruct-v1-Q5_K_M.gguf	Q5_K_M	5.73GB	高質量，推薦。
llama-3-cat-8b-instruct-v1-Q5_K_S.gguf	Q5_K_S	5.59GB	高質量，推薦。
llama-3-cat-8b-instruct-v1-Q4_K_M.gguf	Q4_K_M	4.92GB	良好質量，每個權重約使用4.83位，推薦。
llama-3-cat-8b-instruct-v1-Q4_K_S.gguf	Q4_K_S	4.69GB	質量略低，但節省更多空間，推薦。
llama-3-cat-8b-instruct-v1-IQ4_NL.gguf	IQ4_NL	4.67GB	質量不錯，比`Q4_K_S`略小，性能相似，推薦。
llama-3-cat-8b-instruct-v1-IQ4_XS.gguf	IQ4_XS	4.44GB	質量不錯，比`Q4_K_S`小，性能相似，推薦。
llama-3-cat-8b-instruct-v1-Q3_K_L.gguf	Q3_K_L	4.32GB	質量較低但可用，適合低內存情況。
llama-3-cat-8b-instruct-v1-Q3_K_M.gguf	Q3_K_M	4.01GB	質量更低。
llama-3-cat-8b-instruct-v1-IQ3_M.gguf	IQ3_M	3.78GB	中低質量，新方法，性能與`Q3_K_M`相當。
llama-3-cat-8b-instruct-v1-IQ3_S.gguf	IQ3_S	3.68GB	質量較低，新方法，性能不錯，推薦使用，比`Q3_K_S`量化類型相同大小下性能更好。
llama-3-cat-8b-instruct-v1-Q3_K_S.gguf	Q3_K_S	3.66GB	質量低，不推薦。
llama-3-cat-8b-instruct-v1-IQ3_XS.gguf	IQ3_XS	3.51GB	質量較低，新方法，性能不錯，略優於`Q3_K_S`。
llama-3-cat-8b-instruct-v1-IQ3_XXS.gguf	IQ3_XXS	3.27GB	質量較低，新方法，性能不錯，與`Q3`量化類型相當。
llama-3-cat-8b-instruct-v1-Q2_K.gguf	Q2_K	3.17GB	質量非常低，但出人意料地可用。
llama-3-cat-8b-instruct-v1-IQ2_M.gguf	IQ2_M	2.94GB	質量非常低，使用了最先進的技術，出人意料地可用。
llama-3-cat-8b-instruct-v1-IQ2_S.gguf	IQ2_S	2.75GB	質量非常低，使用了最先進的技術，可用。
llama-3-cat-8b-instruct-v1-IQ2_XS.gguf	IQ2_XS	2.60GB	質量非常低，使用了最先進的技術，可用。
llama-3-cat-8b-instruct-v1-IQ2_XXS.gguf	IQ2_XXS	2.39GB	質量較低，使用了最先進的技術，可用。
llama-3-cat-8b-instruct-v1-IQ1_M.gguf	IQ1_M	2.16GB	質量極低，不推薦。
llama-3-cat-8b-instruct-v1-IQ1_S.gguf	IQ1_S	2.01GB	質量極低，不推薦。

如何選擇文件

Artefact2在此處提供了一份很棒的帶有圖表的文章，展示了各種量化類型的性能。

確定可運行的模型大小：首先，你需要確定自己有多少內存（RAM）和/或顯存（VRAM）。
- 如果你希望模型運行得儘可能快，你需要將整個模型加載到GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化類型。
- 如果你追求絕對的最高質量，將系統內存和GPU顯存相加，然後選擇文件大小比這個總和小1 - 2GB的量化類型。
選擇'I-quant'還是'K-quant'：
- 如果你不想考慮太多，選擇K-quant類型，格式為QX_K_X，如Q5_K_M。
- 如果你想深入瞭解，可以查看 llama.cpp特性矩陣。一般來說，如果你追求低於Q4的量化類型，並且使用的是cuBLAS（Nvidia）或rocBLAS（AMD），可以選擇I-quant類型，格式為IQX_X，如IQ3_M。這些類型較新，在相同大小下提供更好的性能。
- I-quant類型也可以在CPU和Apple Metal上使用，但比相應的K-quant類型慢，因此你需要在速度和性能之間進行權衡。
- I-quant類型與Vulcan（也是AMD）不兼容，所以如果你使用的是AMD顯卡，請仔細檢查你使用的是rocBLAS版本還是Vulcan版本。在撰寫本文時，LM Studio有一個支持ROCm的預覽版，其他推理引擎也有針對ROCm的特定版本。