模型概述
模型特點
模型能力
使用案例
🚀 qCammel 70 - GGUF
qCammel 70 - GGUF 是基於augtoma的qCammel 70模型轉換為GGUF格式的模型文件,支持多種量化方法,適用於不同的使用場景,可在多種客戶端和庫中使用。
🚀 快速開始
下載GGUF文件
- 自動下載:LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動提供可用模型列表供你選擇下載。
- 在
text-generation-webui
中下載:在“Download Model”下輸入模型倉庫地址TheBloke/qCammel-70-x-GGUF
,並指定要下載的文件名,如qcammel-70-x.q4_K_M.gguf
,然後點擊“Download”。 - 命令行下載:推薦使用
huggingface-hub
Python 庫。pip3 install huggingface-hub>=0.17.1 huggingface-cli download TheBloke/qCammel-70-x-GGUF qcammel-70-x.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
運行模型
llama.cpp
命令示例
確保使用的是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更新版本的 llama.cpp
。
./main -ngl 32 -m qcammel-70-x.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"
-ngl 32
:指定要卸載到 GPU 的層數,若沒有 GPU 加速可移除該參數。-c 4096
:指定所需的序列長度。
在 text-generation-webui
中運行
更多說明請參考 text-generation-webui/docs/llama.cpp.md。
從 Python 代碼運行
可以使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。
from ctransformers import AutoModelForCausalLM
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/qCammel-70-x-GGUF", model_file="qcammel-70-x.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
✨ 主要特性
- 支持多種量化方法:提供了 Q2_K、Q3_K_S、Q3_K_M 等多種量化方法的文件,可根據不同的使用場景和需求進行選擇。
- 廣泛的兼容性:與 llama.cpp 及眾多第三方 UI 和庫兼容,如 text-generation-webui、KoboldCpp 等。
- 易於使用:可通過多種方式下載和運行,支持從 Python 代碼調用。
📦 安裝指南
安裝依賴庫
下載 GGUF 文件所需依賴
pip3 install huggingface-hub>=0.17.1
使用 ctransformers 庫所需依賴
# Base ctransformers with no GPU acceleration
pip install ctransformers>=0.2.24
# Or with CUDA GPU acceleration
pip install ctransformers[cuda]>=0.2.24
# Or with ROCm GPU acceleration
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# Or with Metal GPU acceleration for macOS systems
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
💻 使用示例
從 Python 代碼加載模型
from ctransformers import AutoModelForCausalLM
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/qCammel-70-x-GGUF", model_file="qcammel-70-x.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
📚 詳細文檔
關於 GGUF
GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式,它取代了不再受 llama.cpp 支持的 GGML 格式。GGUF 具有諸多優勢,如更好的分詞功能、對特殊標記的支持、支持元數據,並且設計為可擴展的。
已知支持 GGUF 的客戶端和庫包括:
- llama.cpp:GGUF 的源項目,提供 CLI 和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持跨所有平臺和 GPU 架構的 GPU 加速,特別適合講故事。
- LM Studio:適用於 Windows 和 macOS(Silicon)的易於使用且功能強大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
- llama-cpp-python:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個專注於性能的 Rust ML 框架,包括 GPU 支持和易於使用。
可用的倉庫
- 用於 GPU 推理的 AWQ 模型
- 用於 GPU 推理的 GPTQ 模型,具有多種量化參數選項
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- augtoma 原始未量化的 fp16 格式的 PyTorch 模型,用於 GPU 推理和進一步轉換
提示模板:Vicuna
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
qcammel-70-x.Q2_K.gguf | Q2_K | 2 | 29.28 GB | 31.78 GB | 最小,但有顯著的質量損失,不建議用於大多數場景 |
qcammel-70-x.Q3_K_S.gguf | Q3_K_S | 3 | 29.92 GB | 32.42 GB | 非常小,但有較高的質量損失 |
qcammel-70-x.Q3_K_M.gguf | Q3_K_M | 3 | 33.19 GB | 35.69 GB | 非常小,但有較高的質量損失 |
qcammel-70-x.Q3_K_L.gguf | Q3_K_L | 3 | 36.15 GB | 38.65 GB | 小,但有較大的質量損失 |
qcammel-70-x.Q4_0.gguf | Q4_0 | 4 | 38.87 GB | 41.37 GB | 舊版本;小,但有非常高的質量損失,建議使用 Q3_K_M |
qcammel-70-x.Q4_K_S.gguf | Q4_K_S | 4 | 39.07 GB | 41.57 GB | 小,但有較大的質量損失 |
qcammel-70-x.Q4_K_M.gguf | Q4_K_M | 4 | 41.42 GB | 43.92 GB | 中等,質量平衡,推薦使用 |
qcammel-70-x.Q5_0.gguf | Q5_0 | 5 | 47.46 GB | 49.96 GB | 舊版本;中等,質量平衡,建議使用 Q4_K_M |
qcammel-70-x.Q5_K_S.gguf | Q5_K_S | 5 | 47.46 GB | 49.96 GB | 大,質量損失低,推薦使用 |
qcammel-70-x.Q5_K_M.gguf | Q5_K_M | 5 | 48.75 GB | 51.25 GB | 大,質量損失非常低,推薦使用 |
qcammel-70-x.Q6_K.gguf | Q6_K | 6 | 56.59 GB | 59.09 GB | 非常大,質量損失極低 |
qcammel-70-x.Q8_0.gguf | Q8_0 | 8 | 73.29 GB | 75.79 GB | 非常大,質量損失極低,但不建議使用 |
注意:上述 RAM 數字假設沒有進行 GPU 卸載。如果將層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
Q6_K 和 Q8_0 文件的拆分與合併
由於 Hugging Face 不支持上傳大於 50GB 的文件,因此 Q6_K 和 Q8_0 文件以拆分文件的形式上傳。
下載拆分文件
- Q6_K:
qcammel-70-x.Q6_K.gguf-split-a
qcammel-70-x.Q6_K.gguf-split-b
- Q8_0:
qcammel-70-x.Q8_0.gguf-split-a
qcammel-70-x.Q8_0.gguf-split-b
合併文件
- Linux 和 macOS:
cat qcammel-70-x.Q6_K.gguf-split-* > qcammel-70-x.Q6_K.gguf && rm qcammel-70-x.Q6_K.gguf-split-*
cat qcammel-70-x.Q8_0.gguf-split-* > qcammel-70-x.Q8_0.gguf && rm qcammel-70-x.Q8_0.gguf-split-*
- Windows 命令行:
COPY /B qcammel-70-x.Q6_K.gguf-split-a + qcammel-70-x.Q6_K.gguf-split-b qcammel-70-x.Q6_K.gguf
del qcammel-70-x.Q6_K.gguf-split-a qcammel-70-x.Q6_K.gguf-split-b
COPY /B qcammel-70-x.Q8_0.gguf-split-a + qcammel-70-x.Q8_0.gguf-split-b qcammel-70-x.Q8_0.gguf
del qcammel-70-x.Q8_0.gguf-split-a qcammel-70-x.Q8_0.gguf-split-b
量化方法說明
點擊查看詳情
新的可用方法包括:
- GGML_TYPE_Q2_K - “類型 1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的縮放和最小值用 4 位量化。最終每個權重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K - “類型 0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。縮放用 6 位量化。最終使用 3.4375 bpw。
- GGML_TYPE_Q4_K - “類型 1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。縮放和最小值用 6 位量化。最終使用 4.5 bpw。
- GGML_TYPE_Q5_K - “類型 1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構,最終使用 5.5 bpw。
- GGML_TYPE_Q6_K - “類型 0” 6 位量化。超級塊有 16 個塊,每個塊有 16 個權重。縮放用 8 位量化。最終使用 6.5625 bpw。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法以及如何使用。
如何使用 LangChain
以下是使用 llama-cpp-python 或 ctransformers 與 LangChain 的指南:
🔧 技術細節
qCammel 70 - GGUF 基於 augtoma 的 qCammel 70 模型,該模型是基於 Llama 2 架構的微調模型。Llama 2 是一種自迴歸語言模型,使用僅解碼器的 Transformer 架構。
模型信息
屬性 | 詳情 |
---|---|
模型類型 | llama |
基礎模型 | augtoma/qCammel-70-x |
模型創建者 | augtoma |
量化者 | TheBloke |
管道標籤 | text-generation |
提示模板 | A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT: |
研究論文
- Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding
- QLoRA: Efficient Finetuning of Quantized LLMs
- LLaMA: Open and Efficient Foundation Language Models
📄 許可證
源模型的創建者將其許可證列為 other
,因此此量化版本也使用相同的許可證。
由於該模型基於 Llama 2,它也受 Meta Llama 2 許可證條款的約束,並且額外包含了該許可證文件。因此,應認為該模型聲稱同時受這兩種許可證的約束。我已聯繫 Hugging Face 以澄清雙重許可問題,但他們尚未有官方立場。如果情況發生變化,或者 Meta 對此情況提供任何反饋,我將相應更新此部分。
在此期間,有關許可證的任何問題,特別是這兩種許可證如何相互作用的問題,應諮詢原始模型倉庫:augtoma's qCammel 70。
其他信息
Discord
如需進一步支持,以及討論這些模型和人工智能相關話題,請加入:TheBloke AI's Discord server
感謝與貢獻
感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay!
如果您願意貢獻,這將非常感激,有助於提供更多模型並開展新的 AI 項目。捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Alicia Loh、Stephen Murray 等眾多支持者。
感謝所有慷慨的贊助者和捐贈者!也再次感謝 a16z 的慷慨資助。



