模型概述
模型特點
模型能力
使用案例
🚀 Pygmalion 2 13B SuperCOT Weighed - GGUF
Pygmalion 2 13B SuperCOT Weighed - GGUF 是一個基於特定模型融合的文本生成模型,結合了 Pygmalion 2 13b 和 SuperCOT 的優勢,可用於多種文本生成任務。
🚀 快速開始
本模型可用於文本生成任務,支持多種量化格式以適應不同的硬件和使用場景。以下是使用該模型的一些基本信息和步驟。
✨ 主要特性
- 多種量化格式支持:提供了包括 Q2_K、Q3_K、Q4_K 等多種量化格式的模型文件,可根據需求選擇不同的量化方法和比特數,以平衡模型大小和質量。
- 廣泛的兼容性:與 llama.cpp、text-generation-webui、KoboldCpp 等多種客戶端和庫兼容,方便用戶在不同的環境中使用。
- 易於使用:支持自動下載和命令行下載,同時提供了詳細的使用示例和說明,方便用戶快速上手。
📦 安裝指南
下載 GGUF 文件
- 自動下載:LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動下載模型,提供可用模型列表供選擇。
- 在 text-generation-webui 中下載:在 Download Model 中輸入模型倉庫地址 TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF,並指定要下載的文件名,如 pygmalion-2-13b-supercot-weighed.q4_K_M.gguf,然後點擊 Download。
- 命令行下載:推薦使用
huggingface-hub
Python 庫。
pip3 install huggingface-hub>=0.17.1
下載單個模型文件到當前目錄:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
若要加速下載(1Gbit/s 或更高連接速度),安裝 hf_transfer
:
pip3 install hf_transfer
設置環境變量並下載:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLI 用戶在運行下載命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
💻 使用示例
基礎用法
llama.cpp 命令示例
確保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高版本。
./main -ngl 32 -m pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
:指定要卸載到 GPU 的層數,若無 GPU 加速可移除該參數。-c 4096
:指定所需的序列長度。對於擴展序列模型(如 8K、16K、32K),必要的 RoPE 縮放參數會從 GGUF 文件中讀取並由 llama.cpp 自動設置。- 若要進行聊天式對話,將
-p <PROMPT>
參數替換為-i -ins
。
在 text-generation-webui 中運行
具體說明請參考 text-generation-webui/docs/llama.cpp.md。
從 Python 代碼運行
可使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。
使用 ctransformers 加載模型
# 無 GPU 加速的基礎 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或使用 Metal GPU 加速(適用於 macOS 系統)
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
from ctransformers import AutoModelForCausalLM
# 設置 gpu_layers 為要卸載到 GPU 的層數。若系統無 GPU 加速,設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF", model_file="pygmalion-2-13b-supercot-weighed.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高級用法
使用 LangChain
可參考以下指南使用 llama-cpp-python 或 ctransformers 與 LangChain 結合:
📚 詳細文檔
關於 GGUF
GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式,用於替代不再受 llama.cpp 支持的 GGML 格式。GGUF 具有許多優於 GGML 的優點,如更好的分詞功能、對特殊標記的支持,還支持元數據,並且設計為可擴展的。
以下是已知支持 GGUF 的客戶端和庫列表:
- llama.cpp:GGUF 的源項目,提供 CLI 和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持跨所有平臺和 GPU 架構的 GPU 加速,特別適合講故事。
- LM Studio:適用於 Windows 和 macOS(Silicon)的易於使用且功能強大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
- llama-cpp-python:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個專注於性能的 Rust ML 框架,包括 GPU 支持,且易於使用。
可用的倉庫
- 用於 GPU 推理的 AWQ 模型
- 用於 GPU 推理的 GPTQ 模型,具有多個量化參數選項
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- royallab 原始未量化的 fp16 模型(pytorch 格式),用於 GPU 推理和進一步轉換
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
兼容性
這些量化的 GGUFv2 文件與 8 月 27 日及以後的 llama.cpp 兼容,具體為提交 d0cee0d36d5be95a0d9088b674dbb27354107221 及以後的版本。
它們還與許多第三方 UI 和庫兼容,請參閱本 README 頂部的列表。
量化方法說明
點擊查看詳情
新的可用方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的比例和最小值用 4 位量化。最終每個權重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。比例用 6 位量化。最終使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。比例和最小值用 6 位量化。最終使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構,最終使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化。超級塊有 16 個塊,每個塊有 16 個權重。比例用 8 位量化。最終使用 6.5625 bpw。
請參考下面的提供文件表,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
名稱 | 量化方法 | 比特數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
pygmalion-2-13b-supercot-weighed.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最小,但質量損失顯著,不建議用於大多數用途 |
pygmalion-2-13b-supercot-weighed.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常小,但質量損失高 |
pygmalion-2-13b-supercot-weighed.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常小,但質量損失高 |
pygmalion-2-13b-supercot-weighed.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小,但質量損失較大 |
pygmalion-2-13b-supercot-weighed.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | 舊版本;小,但質量損失非常高,建議使用 Q3_K_M |
pygmalion-2-13b-supercot-weighed.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小,但質量損失較大 |
pygmalion-2-13b-supercot-weighed.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中等,質量平衡,推薦使用 |
pygmalion-2-13b-supercot-weighed.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | 舊版本;中等,質量平衡,建議使用 Q4_K_M |
pygmalion-2-13b-supercot-weighed.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大,質量損失低,推薦使用 |
pygmalion-2-13b-supercot-weighed.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大,質量損失非常低,推薦使用 |
pygmalion-2-13b-supercot-weighed.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常大,質量損失極低 |
pygmalion-2-13b-supercot-weighed.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常大,質量損失極低,但不建議使用 |
注意:上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU,這將減少 RAM 使用並使用 VRAM 代替。
如何下載 GGUF 文件
手動下載者注意:幾乎不需要克隆整個倉庫!提供了多種不同的量化格式,大多數用戶只需要選擇並下載單個文件。
以下客戶端/庫將自動為您下載模型,並提供可用模型列表供選擇:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中
在 Download Model 下,您可以輸入模型倉庫地址:TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF,並在其下方輸入要下載的特定文件名,例如:pygmalion-2-13b-supercot-weighed.q4_K_M.gguf。
然後點擊 Download。
在命令行中,包括一次下載多個文件
建議使用 huggingface-hub
Python 庫:
pip3 install huggingface-hub>=0.17.1
然後您可以使用以下命令將任何單個模型文件高速下載到當前目錄:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高級的 huggingface-cli 下載用法
您還可以使用模式一次下載多個文件:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有關使用 huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python 庫 -> 下載文件 -> 從 CLI 下載。
為了在高速連接(1Gbit/s 或更高)上加速下載,請安裝 hf_transfer
:
pip3 install hf_transfer
並將環境變量 HF_HUB_ENABLE_HF_TRANSFER
設置為 1
:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLI 用戶:在運行下載命令之前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
🔧 技術細節
模型融合
Pygmalion 2 13B SuperCOT Weighed 是一個實驗性的加權融合模型,融合了以下兩個模型:
融合使用了 zaraki-tools 中的梯度融合腳本(apply-lora-weight-ltl.py)。
融合比例
SuperCOT lora 以以下層權重進行融合(基本上是 50/50,確切比例是 0.51):
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.5,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
可視化
以下是融合的可視化圖像,淺藍色表示 Pygmalion-2-13b,淺綠色表示 SuperCOT lora:
📄 許可證
本模型使用 llama2 許可證。
其他信息
Discord
如需進一步支持,以及討論這些模型和人工智能相關內容,請加入我們的 Discord 服務器: TheBloke AI's Discord server
感謝與貢獻
感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay!
如果您願意貢獻,將非常感激,這將幫助我提供更多的模型並開展新的人工智能項目。捐贈者將在所有 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Alicia Loh、Stephen Murray 等眾多支持者。
感謝所有慷慨的贊助者和捐贈者!再次感謝 a16z 的慷慨資助。



