qCammel-70-x-GGUF開源大語言模型 - 免費部署高效完成文本生成任務

首頁

Qcammel 70 X GGUF

由TheBloke開發

qCammel 70是基於Llama 2架構的大語言模型，由augtoma開發，TheBloke進行量化處理。該模型專注於文本生成任務，提供多種量化版本以適應不同硬件需求。

大型語言模型英語開源協議:其他 #Llama2架構 #多輪對話優化 #70B參數量

下載量 1,264

發布時間 : 9/5/2023

模型概述

qCammel 70是一個基於Llama 2架構的大型語言模型，經過量化處理以優化推理效率。它支持英文文本生成，適用於對話系統和內容創作等場景。

模型特點

多種量化選項

提供從2位到8位的多種量化版本，適應不同硬件配置和性能需求

高效推理

採用GGUF格式優化推理效率，支持CPU和GPU加速

對話優化

使用Vicuna風格的提示模板，優化對話交互體驗

模型能力

文本生成

對話系統

內容創作

使用案例

對話系統

智能助手

構建能夠理解並回應用戶查詢的智能對話系統

提供有幫助、詳細且禮貌的回答

內容創作

創意寫作

輔助進行故事創作、詩歌寫作等創意內容生成

🚀 qCammel 70 - GGUF

qCammel 70 - GGUF 是基於augtoma的qCammel 70模型轉換為GGUF格式的模型文件，支持多種量化方法，適用於不同的使用場景，可在多種客戶端和庫中使用。

🚀 快速開始

下載GGUF文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動提供可用模型列表供你選擇下載。
在text-generation-webui中下載：在“Download Model”下輸入模型倉庫地址 TheBloke/qCammel-70-x-GGUF，並指定要下載的文件名，如 qcammel-70-x.q4_K_M.gguf，然後點擊“Download”。

命令行下載：推薦使用 huggingface-hub Python 庫。

pip3 install huggingface-hub>=0.17.1
huggingface-cli download TheBloke/qCammel-70-x-GGUF qcammel-70-x.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

運行模型

`llama.cpp` 命令示例

確保使用的是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更新版本的 llama.cpp。

./main -ngl 32 -m qcammel-70-x.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32：指定要卸載到 GPU 的層數，若沒有 GPU 加速可移除該參數。
-c 4096：指定所需的序列長度。

在 `text-generation-webui` 中運行

更多說明請參考 text-generation-webui/docs/llama.cpp.md。

從 Python 代碼運行

可以使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。

from ctransformers import AutoModelForCausalLM

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/qCammel-70-x-GGUF", model_file="qcammel-70-x.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

✨ 主要特性

支持多種量化方法：提供了 Q2_K、Q3_K_S、Q3_K_M 等多種量化方法的文件，可根據不同的使用場景和需求進行選擇。
廣泛的兼容性：與 llama.cpp 及眾多第三方 UI 和庫兼容，如 text-generation-webui、KoboldCpp 等。
易於使用：可通過多種方式下載和運行，支持從 Python 代碼調用。

📦 安裝指南

安裝依賴庫

下載 GGUF 文件所需依賴

pip3 install huggingface-hub>=0.17.1

使用 ctransformers 庫所需依賴

# Base ctransformers with no GPU acceleration
pip install ctransformers>=0.2.24
# Or with CUDA GPU acceleration
pip install ctransformers[cuda]>=0.2.24
# Or with ROCm GPU acceleration
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# Or with Metal GPU acceleration for macOS systems
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

💻 使用示例

從 Python 代碼加載模型

from ctransformers import AutoModelForCausalLM

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/qCammel-70-x-GGUF", model_file="qcammel-70-x.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。GGUF 具有諸多優勢，如更好的分詞功能、對特殊標記的支持、支持元數據，並且設計為可擴展的。

已知支持 GGUF 的客戶端和庫包括：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持和易於使用。

可用的倉庫

提示模板：Vicuna

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

提供的文件

名稱	量化方法	位數	大小	所需最大 RAM	使用場景
qcammel-70-x.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最小，但有顯著的質量損失，不建議用於大多數場景
qcammel-70-x.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常小，但有較高的質量損失
qcammel-70-x.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常小，但有較高的質量損失
qcammel-70-x.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小，但有較大的質量損失
qcammel-70-x.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	舊版本；小，但有非常高的質量損失，建議使用 Q3_K_M
qcammel-70-x.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小，但有較大的質量損失
qcammel-70-x.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中等，質量平衡，推薦使用
qcammel-70-x.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	舊版本；中等，質量平衡，建議使用 Q4_K_M
qcammel-70-x.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大，質量損失低，推薦使用
qcammel-70-x.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大，質量損失非常低，推薦使用
qcammel-70-x.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常大，質量損失極低
qcammel-70-x.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常大，質量損失極低，但不建議使用

注意：上述 RAM 數字假設沒有進行 GPU 卸載。如果將層卸載到 GPU，將減少 RAM 使用並使用 VRAM。

Q6_K 和 Q8_0 文件的拆分與合併

由於 Hugging Face 不支持上傳大於 50GB 的文件，因此 Q6_K 和 Q8_0 文件以拆分文件的形式上傳。

下載拆分文件

Q6_K：
- qcammel-70-x.Q6_K.gguf-split-a
- qcammel-70-x.Q6_K.gguf-split-b
Q8_0：
- qcammel-70-x.Q8_0.gguf-split-a
- qcammel-70-x.Q8_0.gguf-split-b

合併文件

Linux 和 macOS：

cat qcammel-70-x.Q6_K.gguf-split-* > qcammel-70-x.Q6_K.gguf && rm qcammel-70-x.Q6_K.gguf-split-*
cat qcammel-70-x.Q8_0.gguf-split-* > qcammel-70-x.Q8_0.gguf && rm qcammel-70-x.Q8_0.gguf-split-*

Windows 命令行：

COPY /B qcammel-70-x.Q6_K.gguf-split-a + qcammel-70-x.Q6_K.gguf-split-b qcammel-70-x.Q6_K.gguf
del qcammel-70-x.Q6_K.gguf-split-a qcammel-70-x.Q6_K.gguf-split-b

COPY /B qcammel-70-x.Q8_0.gguf-split-a + qcammel-70-x.Q8_0.gguf-split-b qcammel-70-x.Q8_0.gguf
del qcammel-70-x.Q8_0.gguf-split-a qcammel-70-x.Q8_0.gguf-split-b

量化方法說明

點擊查看詳情

新的可用方法包括：

GGML_TYPE_Q2_K - “類型 1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的縮放和最小值用 4 位量化。最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “類型 0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。縮放用 6 位量化。最終使用 3.4375 bpw。
GGML_TYPE_Q4_K - “類型 1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。縮放和最小值用 6 位量化。最終使用 4.5 bpw。
GGML_TYPE_Q5_K - “類型 1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K - “類型 0” 6 位量化。超級塊有 16 個塊，每個塊有 16 個權重。縮放用 8 位量化。最終使用 6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法以及如何使用。

如何使用 LangChain

以下是使用 llama-cpp-python 或 ctransformers 與 LangChain 的指南：

🔧 技術細節

qCammel 70 - GGUF 基於 augtoma 的 qCammel 70 模型，該模型是基於 Llama 2 架構的微調模型。Llama 2 是一種自迴歸語言模型，使用僅解碼器的 Transformer 架構。

模型信息

屬性	詳情
模型類型	llama
基礎模型	augtoma/qCammel-70-x
模型創建者	augtoma
量化者	TheBloke
管道標籤	text-generation
提示模板	A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

研究論文

📄 許可證

源模型的創建者將其許可證列為 other，因此此量化版本也使用相同的許可證。

由於該模型基於 Llama 2，它也受 Meta Llama 2 許可證條款的約束，並且額外包含了該許可證文件。因此，應認為該模型聲稱同時受這兩種許可證的約束。我已聯繫 Hugging Face 以澄清雙重許可問題，但他們尚未有官方立場。如果情況發生變化，或者 Meta 對此情況提供任何反饋，我將相應更新此部分。

在此期間，有關許可證的任何問題，特別是這兩種許可證如何相互作用的問題，應諮詢原始模型倉庫：augtoma's qCammel 70。