Pygmalion-2-13B-SuperCOT加權模型開源！支持指令交互的文本生成利器

首頁

Pygmalion 2 13B SuperCOT Weighed GGUF

由TheBloke開發

這是Pygmalion-2-13b與SuperCOT的加權融合實驗模型，支持指令格式交互，適用於文本生成任務。

大型語言模型英語#指令優化文本生成 #多格式提示支持 #13B參數量化

下載量 1,468

發布時間 : 9/16/2023

模型概述

基於Pygmalion-2-13b與SuperCOT的加權融合模型，專注於文本生成任務，支持多種指令格式。

模型特點

加權融合技術

結合Pygmalion-2-13b與SuperCOT的優勢，通過加權融合提升模型性能

多格式指令支持

支持Metharme和Alpaca等多種指令格式，適應不同交互場景

GGUF量化支持

提供2-8位多種量化版本，平衡模型性能與資源消耗

模型能力

文本生成

指令理解

對話交互

使用案例

對話系統

智能助手

構建能夠理解複雜指令的對話助手

內容創作

創意寫作

輔助進行故事創作和內容生成

🚀 Pygmalion 2 13B SuperCOT Weighed - GGUF

Pygmalion 2 13B SuperCOT Weighed - GGUF 是一個基於特定模型融合的文本生成模型，結合了 Pygmalion 2 13b 和 SuperCOT 的優勢，可用於多種文本生成任務。

🚀 快速開始

本模型可用於文本生成任務，支持多種量化格式以適應不同的硬件和使用場景。以下是使用該模型的一些基本信息和步驟。

✨ 主要特性

多種量化格式支持：提供了包括 Q2_K、Q3_K、Q4_K 等多種量化格式的模型文件，可根據需求選擇不同的量化方法和比特數，以平衡模型大小和質量。
廣泛的兼容性：與 llama.cpp、text-generation-webui、KoboldCpp 等多種客戶端和庫兼容，方便用戶在不同的環境中使用。
易於使用：支持自動下載和命令行下載，同時提供了詳細的使用示例和說明，方便用戶快速上手。

📦 安裝指南

下載 GGUF 文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動下載模型，提供可用模型列表供選擇。
在 text-generation-webui 中下載：在 Download Model 中輸入模型倉庫地址 TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF，並指定要下載的文件名，如 pygmalion-2-13b-supercot-weighed.q4_K_M.gguf，然後點擊 Download。
命令行下載：推薦使用 huggingface-hub Python 庫。

pip3 install huggingface-hub>=0.17.1

下載單個模型文件到當前目錄：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要加速下載（1Gbit/s 或更高連接速度），安裝 hf_transfer：

pip3 install hf_transfer

設置環境變量並下載：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用戶在運行下載命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

💻 使用示例

基礎用法

llama.cpp 命令示例

確保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高版本。

./main -ngl 32 -m pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"

-ngl 32：指定要卸載到 GPU 的層數，若無 GPU 加速可移除該參數。
-c 4096：指定所需的序列長度。對於擴展序列模型（如 8K、16K、32K），必要的 RoPE 縮放參數會從 GGUF 文件中讀取並由 llama.cpp 自動設置。
若要進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。

在 text-generation-webui 中運行

具體說明請參考 text-generation-webui/docs/llama.cpp.md。

從 Python 代碼運行

可使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。

使用 ctransformers 加載模型

# 無 GPU 加速的基礎 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或使用 Metal GPU 加速（適用於 macOS 系統）
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

from ctransformers import AutoModelForCausalLM

# 設置 gpu_layers 為要卸載到 GPU 的層數。若系統無 GPU 加速，設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF", model_file="pygmalion-2-13b-supercot-weighed.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高級用法

使用 LangChain

可參考以下指南使用 llama-cpp-python 或 ctransformers 與 LangChain 結合：

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式，用於替代不再受 llama.cpp 支持的 GGML 格式。GGUF 具有許多優於 GGML 的優點，如更好的分詞功能、對特殊標記的支持，還支持元數據，並且設計為可擴展的。

以下是已知支持 GGUF 的客戶端和庫列表：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持，且易於使用。

可用的倉庫

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

兼容性

這些量化的 GGUFv2 文件與 8 月 27 日及以後的 llama.cpp 兼容，具體為提交 d0cee0d36d5be95a0d9088b674dbb27354107221 及以後的版本。

它們還與許多第三方 UI 和庫兼容，請參閱本 README 頂部的列表。

量化方法說明

點擊查看詳情

新的可用方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的比例和最小值用 4 位量化。最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。比例用 6 位量化。最終使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。比例和最小值用 6 位量化。最終使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化。超級塊有 16 個塊，每個塊有 16 個權重。比例用 8 位量化。最終使用 6.5625 bpw。

請參考下面的提供文件表，瞭解哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	比特數	大小	所需最大 RAM	使用場景
pygmalion-2-13b-supercot-weighed.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但質量損失顯著，不建議用於大多數用途
pygmalion-2-13b-supercot-weighed.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但質量損失高
pygmalion-2-13b-supercot-weighed.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但質量損失高
pygmalion-2-13b-supercot-weighed.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但質量損失較大
pygmalion-2-13b-supercot-weighed.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	舊版本；小，但質量損失非常高，建議使用 Q3_K_M
pygmalion-2-13b-supercot-weighed.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但質量損失較大
pygmalion-2-13b-supercot-weighed.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，質量平衡，推薦使用
pygmalion-2-13b-supercot-weighed.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	舊版本；中等，質量平衡，建議使用 Q4_K_M
pygmalion-2-13b-supercot-weighed.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，質量損失低，推薦使用
pygmalion-2-13b-supercot-weighed.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，質量損失非常低，推薦使用
pygmalion-2-13b-supercot-weighed.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，質量損失極低
pygmalion-2-13b-supercot-weighed.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，質量損失極低，但不建議使用

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，這將減少 RAM 使用並使用 VRAM 代替。

如何下載 GGUF 文件

手動下載者注意：幾乎不需要克隆整個倉庫！提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件。

以下客戶端/庫將自動為您下載模型，並提供可用模型列表供選擇：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中

在 Download Model 下，您可以輸入模型倉庫地址：TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF，並在其下方輸入要下載的特定文件名，例如：pygmalion-2-13b-supercot-weighed.q4_K_M.gguf。

然後點擊 Download。

在命令行中，包括一次下載多個文件

建議使用 huggingface-hub Python 庫：

pip3 install huggingface-hub>=0.17.1

然後您可以使用以下命令將任何單個模型文件高速下載到當前目錄：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高級的 huggingface-cli 下載用法

您還可以使用模式一次下載多個文件：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有關使用 huggingface-cli 下載的更多文檔，請參閱：HF -> Hub Python 庫 -> 下載文件 -> 從 CLI 下載。

為了在高速連接（1Gbit/s 或更高）上加速下載，請安裝 hf_transfer：

pip3 install hf_transfer

並將環境變量 HF_HUB_ENABLE_HF_TRANSFER 設置為 1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用戶：在運行下載命令之前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

🔧 技術細節

模型融合

Pygmalion 2 13B SuperCOT Weighed 是一個實驗性的加權融合模型，融合了以下兩個模型：

融合使用了 zaraki-tools 中的梯度融合腳本（apply-lora-weight-ltl.py）。

融合比例

SuperCOT lora 以以下層權重進行融合（基本上是 50/50，確切比例是 0.51）：

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.5,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1

可視化

以下是融合的可視化圖像，淺藍色表示 Pygmalion-2-13b，淺綠色表示 SuperCOT lora： gradient-image

📄 許可證

本模型使用 llama2 許可證。

其他信息

Discord

如需進一步支持，以及討論這些模型和人工智能相關內容，請加入我們的 Discord 服務器： TheBloke AI's Discord server

感謝與貢獻

感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay！

如果您願意貢獻，將非常感激，這將幫助我提供更多的模型並開展新的人工智能項目。捐贈者將在所有 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh、Stephen Murray 等眾多支持者。

感謝所有慷慨的贊助者和捐贈者！再次感謝 a16z 的慷慨資助。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫