llama-3-70B-Instruct-abliterated-GGUF開源模型 - 支持本地部署與高效推理

首頁

Llama 3 70B Instruct Abliterated GGUF

由bartowski開發

基於Meta LLaMA-3 70B的指令微調模型，經過量化處理，適用於本地部署和高效推理。

大型語言模型 #70B大模型 #多級量化 #文本生成

下載量 686

發布時間 : 5/16/2024

模型概述

這是一個70B參數規模的大型語言模型，專門針對指令跟隨任務進行了優化，適用於各種文本生成場景。

模型特點

高效量化

提供從Q8_0到IQ1_S的多種量化級別，滿足不同硬件條件下的部署需求

指令優化

專門針對指令跟隨任務進行微調，能夠更好地理解和執行用戶指令

本地部署

通過GGUF格式支持本地運行，無需依賴雲端服務

高性能推理

即使在高壓縮率下仍能保持較好的生成質量

模型能力

文本生成

指令理解

對話系統

內容創作

使用案例

智能助手

個人助理

用於日常問答、日程安排等個人助理功能

內容創作

文章寫作

輔助撰寫各類文章、報告等文本內容

教育

學習輔導

為學生提供學習輔導和知識解答

🚀 Llama-3-70B-Instruct-abliterated的Llamacpp imatrix量化版本

本項目使用 llama.cpp 發佈版本 b2854 進行量化。原始模型地址：https://huggingface.co/failspy/llama-3-70B-Instruct-abliterated 所有量化版本均使用imatrix選項，並採用來自此處的數據集。

🚀 快速開始

提示詞格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

下載文件

你可以從下方表格中選擇並下載單個文件（而非整個分支）：

文件名	量化類型	文件大小	描述
llama-3-70B-Instruct-abliterated-Q8_0.gguf	Q8_0	74.97GB	極高質量，通常無需使用，為最大可用量化版本。
llama-3-70B-Instruct-abliterated-Q6_K.gguf	Q6_K	57.88GB	非常高質量，近乎完美，推薦使用。
llama-3-70B-Instruct-abliterated-Q5_K_M.gguf	Q5_K_M	49.94GB	高質量，推薦使用。
llama-3-70B-Instruct-abliterated-Q5_K_S.gguf	Q5_K_S	48.65GB	高質量，推薦使用。
llama-3-70B-Instruct-abliterated-Q4_K_M.gguf	Q4_K_M	42.52GB	良好質量，每個權重約使用4.83位，推薦使用。
llama-3-70B-Instruct-abliterated-Q4_K_S.gguf	Q4_K_S	40.34GB	質量稍低，但節省更多空間，推薦使用。
llama-3-70B-Instruct-abliterated-IQ4_NL.gguf	IQ4_NL	40.05GB	質量尚可，比Q4_K_S稍小，性能相近，推薦使用。
llama-3-70B-Instruct-abliterated-IQ4_XS.gguf	IQ4_XS	37.90GB	質量尚可，比Q4_K_S小，性能相近，推薦使用。
llama-3-70B-Instruct-abliterated-Q3_K_L.gguf	Q3_K_L	37.14GB	質量較低，但仍可使用，適合低內存情況。
llama-3-70B-Instruct-abliterated-Q3_K_M.gguf	Q3_K_M	34.26GB	質量更低。
llama-3-70B-Instruct-abliterated-IQ3_M.gguf	IQ3_M	31.93GB	中低質量，新方法，性能與Q3_K_M相當。
llama-3-70B-Instruct-abliterated-IQ3_S.gguf	IQ3_S	30.91GB	質量較低，新方法，性能尚可，推薦使用，優於Q3_K_S量化版本，相同大小下性能更好。
llama-3-70B-Instruct-abliterated-Q3_K_S.gguf	Q3_K_S	30.91GB	低質量，不推薦使用。
llama-3-70B-Instruct-abliterated-IQ3_XS.gguf	IQ3_XS	29.30GB	質量較低，新方法，性能尚可，略優於Q3_K_S。
llama-3-70B-Instruct-abliterated-IQ3_XXS.gguf	IQ3_XXS	27.46GB	質量較低，新方法，性能尚可，與Q3量化版本相當。
llama-3-70B-Instruct-abliterated-Q2_K.gguf	Q2_K	26.37GB	極低質量，但出人意料地可用。
llama-3-70B-Instruct-abliterated-IQ2_M.gguf	IQ2_M	24.11GB	極低質量，使用了最先進技術，出人意料地可用。
llama-3-70B-Instruct-abliterated-IQ2_S.gguf	IQ2_S	22.24GB	極低質量，使用了最先進技術，可用。
llama-3-70B-Instruct-abliterated-IQ2_XS.gguf	IQ2_XS	21.14GB	極低質量，使用了最先進技術，可用。
llama-3-70B-Instruct-abliterated-IQ2_XXS.gguf	IQ2_XXS	19.09GB	質量較低，使用了最先進技術，可用。
llama-3-70B-Instruct-abliterated-IQ1_M.gguf	IQ1_M	16.75GB	極低質量，不推薦使用。
llama-3-70B-Instruct-abliterated-IQ1_S.gguf	IQ1_S	15.34GB	極低質量，不推薦使用。

使用huggingface-cli下載

首先，確保你已安裝huggingface-cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

如果模型大小超過50GB，它將被分割成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q8_0.gguf/*" --local-dir llama-3-70B-Instruct-abliterated-Q8_0 --local-dir-use-symlinks False

你可以指定一個新的本地目錄（如llama-3-70B-Instruct-abliterated-Q8_0），也可以將它們全部下載到當前目錄（./）。

📚 詳細文檔

如何選擇文件？

Artefact2在此處提供了一篇很棒的文章，帶有展示各種性能的圖表。首先，你需要確定你能夠運行多大的模型。為此，你需要了解你擁有多少系統內存（RAM）和/或顯存（VRAM）。如果你希望模型運行得儘可能快，你需要將整個模型加載到GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化版本。如果你追求絕對的最高質量，將系統內存和GPU顯存相加，然後選擇文件大小比該總和小1 - 2GB的量化版本。接下來，你需要決定是否使用“I量化”或“K量化”。如果你不想考慮太多，選擇K量化版本。它們的格式為“QX_K_X”，如Q5_K_M。如果你想深入瞭解，可以查看這個非常有用的功能圖表： llama.cpp功能矩陣但基本上，如果你目標是低於Q4的量化版本，並且你使用的是cuBLAS（Nvidia）或rocBLAS（AMD），你應該考慮I量化版本。它們的格式為IQX_X，如IQ3_M。這些是較新的版本，在相同大小下提供更好的性能。這些I量化版本也可以在CPU和Apple Metal上使用，但比對應的K量化版本慢，因此你需要在速度和性能之間進行權衡。 I量化版本不兼容Vulcan（同樣適用於AMD），因此如果你有AMD顯卡，請仔細檢查你使用的是rocBLAS版本還是Vulcan版本。在撰寫本文時，LM Studio有一個支持ROCm的預覽版本，其他推理引擎也有針對ROCm的特定版本。