LLAMA-3_8B_Unaligned_BETA-GGUF開源模型 - 多量化版本適配不同硬件需求

首頁

LLAMA 3 8B Unaligned BETA GGUF

由bartowski開發

基於LLaMA-3架構的8B參數未對齊測試版模型，提供多種量化版本以適應不同硬件需求

大型語言模型 #多量化版本 #輕量級部署 #ARM優化

下載量 542

發布時間 : 10/12/2024

模型概述

這是一個8B參數的LLaMA-3未對齊測試版模型，經過多種量化處理，可在不同硬件配置下運行，特別適合本地部署和實驗用途

模型特點

多種量化選項

提供從f16到IQ2_M共20種不同量化版本，適應從高性能到低資源的不同需求

imatrix量化技術

使用llama.cpp的imatrix選項進行量化，提高量化後的模型質量

ARM優化版本

特別為ARM芯片提供優化版本(Q4_0_X_X)，可顯著提升在ARM設備上的推理速度

嵌入/輸出權重優化

部分量化版本(Q3_K_XL、Q4_K_L等)的嵌入和輸出權重使用Q8_0量化，可能提升模型質量

模型能力

文本生成

對話系統

內容創作

代碼生成

使用案例

本地AI應用

個人AI助手

在本地設備上運行個人AI助手，保護隱私

可在消費級硬件上流暢運行

內容創作工具

用於生成創意寫作、故事和詩歌

提供有創意的文本輸出

開發與研究

模型量化研究

研究不同量化方法對模型性能的影響

提供多種量化版本供比較

邊緣AI實驗

在資源受限設備上部署大型語言模型

小至3GB的量化版本可在低端設備運行

🚀 LLAMA-3_8B_Unaligned_BETA的Llamacpp imatrix量化版本

本項目提供了LLAMA-3_8B_Unaligned_BETA模型的量化版本，藉助量化技術可在不同硬件條件下更高效地運行模型。

🚀 快速開始

運行環境

可在 LM Studio 中運行這些量化模型。

下載文件

可從下方表格中選擇所需的量化文件進行下載：

文件名	量化類型	文件大小	拆分情況	描述
LLAMA-3_8B_Unaligned_BETA-f16.gguf	f16	16.07GB	否	完整的F16權重。
LLAMA-3_8B_Unaligned_BETA-Q8_0.gguf	Q8_0	8.54GB	否	極高質量，通常不需要，但為最大可用量化。
LLAMA-3_8B_Unaligned_BETA-Q6_K_L.gguf	Q6_K_L	6.85GB	否	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
LLAMA-3_8B_Unaligned_BETA-Q6_K.gguf	Q6_K	6.60GB	否	非常高質量，接近完美，推薦。
LLAMA-3_8B_Unaligned_BETA-Q5_K_L.gguf	Q5_K_L	6.06GB	否	嵌入和輸出權重使用Q8_0。高質量，推薦。
LLAMA-3_8B_Unaligned_BETA-Q5_K_M.gguf	Q5_K_M	5.73GB	否	高質量，推薦。
LLAMA-3_8B_Unaligned_BETA-Q5_K_S.gguf	Q5_K_S	5.60GB	否	高質量，推薦。
LLAMA-3_8B_Unaligned_BETA-Q4_K_L.gguf	Q4_K_L	5.31GB	否	嵌入和輸出權重使用Q8_0。良好質量，推薦。
LLAMA-3_8B_Unaligned_BETA-Q4_K_M.gguf	Q4_K_M	4.92GB	否	良好質量，大多數用例的默認大小，推薦。
LLAMA-3_8B_Unaligned_BETA-Q3_K_XL.gguf	Q3_K_XL	4.78GB	否	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低內存情況。
LLAMA-3_8B_Unaligned_BETA-Q4_K_S.gguf	Q4_K_S	4.69GB	否	質量稍低但節省空間，推薦。
LLAMA-3_8B_Unaligned_BETA-Q4_0.gguf	Q4_0	4.68GB	否	舊格式，通常在類似大小的格式中不值得使用
LLAMA-3_8B_Unaligned_BETA-Q4_0_8_8.gguf	Q4_0_8_8	4.66GB	否	針對ARM推理優化。需要'sve'支持（見下方鏈接）。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-Q4_0_4_8.gguf	Q4_0_4_8	4.66GB	否	針對ARM推理優化。需要'i8mm'支持（見下方鏈接）。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-Q4_0_4_4.gguf	Q4_0_4_4	4.66GB	否	針對ARM推理優化。應該在所有ARM芯片上都能良好工作，如果不確定可以選擇這個。不要在Mac或Windows上使用。
LLAMA-3_8B_Unaligned_BETA-IQ4_XS.gguf	IQ4_XS	4.45GB	否	質量不錯，比Q4_K_S小且性能相似，推薦。
LLAMA-3_8B_Unaligned_BETA-Q3_K_L.gguf	Q3_K_L	4.32GB	否	質量較低但可用，適合低內存情況。
LLAMA-3_8B_Unaligned_BETA-Q3_K_M.gguf	Q3_K_M	4.02GB	否	低質量。
LLAMA-3_8B_Unaligned_BETA-IQ3_M.gguf	IQ3_M	3.78GB	否	中低質量，新方法且性能不錯，與Q3_K_M相當。
LLAMA-3_8B_Unaligned_BETA-Q2_K_L.gguf	Q2_K_L	3.69GB	否	嵌入和輸出權重使用Q8_0。質量非常低但出人意料地可用。
LLAMA-3_8B_Unaligned_BETA-Q3_K_S.gguf	Q3_K_S	3.66GB	否	低質量，不推薦。
LLAMA-3_8B_Unaligned_BETA-IQ3_XS.gguf	IQ3_XS	3.52GB	否	質量較低，新方法且性能不錯，略優於Q3_K_S。
LLAMA-3_8B_Unaligned_BETA-Q2_K.gguf	Q2_K	3.18GB	否	質量非常低但出人意料地可用。
LLAMA-3_8B_Unaligned_BETA-IQ2_M.gguf	IQ2_M	2.95GB	否	相對低質量，使用最先進技術，出人意料地可用。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多量化類型支持：提供了多種量化類型的文件，可根據不同的硬件資源和性能需求進行選擇。
ARM芯片優化：部分量化類型針對ARM芯片進行了優化，可顯著提升推理速度。
嵌入/輸出權重調整：部分量化文件對嵌入和輸出權重進行了特殊處理，可能會提高模型質量。

📦 安裝指南

安裝huggingface-cli

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載指定文件

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大於50GB，它將被拆分為多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF --include "LLAMA-3_8B_Unaligned_BETA-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如LLAMA-3_8B_Unaligned_BETA-Q8_0），也可以將它們全部下載到當前目錄（./）。

📚 詳細文檔

嵌入/輸出權重說明

部分量化文件（如Q3_K_XL、Q4_K_L等）採用了標準量化方法，但將嵌入和輸出權重量化為Q8_0，而不是默認值。有人認為這可以提高質量，也有人認為沒有明顯差異。如果你使用了這些模型，請評論分享你的發現，以便了解這些量化文件是否真正有用。

Q4_0_X_X量化類型說明

這些量化類型不適合Metal（蘋果）卸載，僅適用於ARM芯片。如果你使用的是ARM芯片，Q4_0_X_X量化類型將顯著提高速度。你可以查看原始拉取請求中的Q4_0_4_4速度比較。要確定哪種量化類型最適合你的ARM芯片，可以查看 AArch64 SoC特性。

如何選擇文件

Artefact2 提供了一篇很棒的文章，其中包含顯示各種性能的圖表，可參考此處。選擇文件時，首先要確定你可以運行的模型大小，這需要了解你擁有的RAM和/或VRAM容量。

追求最快速度：如果希望模型儘可能快地運行，應選擇文件大小比GPU的總VRAM小1 - 2GB的量化文件，以便將整個模型放入GPU的VRAM中。
追求最高質量：如果追求絕對最高質量，將系統RAM和GPU的VRAM相加，然後選擇文件大小比該總和小1 - 2GB的量化文件。

接下來，你需要決定是否使用'I-quant'或'K-quant'：

不想過多考慮：可以選擇K-quant，格式為'QX_K_X'，如Q5_K_M。
想深入瞭解：可以查看 llama.cpp特性矩陣。一般來說，如果你希望量化級別低於Q4，並且使用cuBLAS（Nvidia）或rocBLAS（AMD），可以考慮I-quant，格式為IQX_X，如IQ3_M。這些是較新的量化類型，在相同大小下提供更好的性能。

I-quant也可以在CPU和Apple Metal上使用，但速度會比K-quant慢，因此需要在速度和性能之間進行權衡。此外，I-quant與Vulcan（也是AMD）不兼容，因此如果你使用的是AMD顯卡，請仔細檢查你使用的是rocBLAS版本還是Vulcan版本。在撰寫本文時，LM Studio有一個支持ROCm的預覽版，其他推理引擎也有針對ROCm的特定版本。