模型简介
模型特点
模型能力
使用案例
🚀 Pygmalion 2 13B SuperCOT Weighed - GGUF
Pygmalion 2 13B SuperCOT Weighed - GGUF 是一个基于特定模型融合的文本生成模型,结合了 Pygmalion 2 13b 和 SuperCOT 的优势,可用于多种文本生成任务。
🚀 快速开始
本模型可用于文本生成任务,支持多种量化格式以适应不同的硬件和使用场景。以下是使用该模型的一些基本信息和步骤。
✨ 主要特性
- 多种量化格式支持:提供了包括 Q2_K、Q3_K、Q4_K 等多种量化格式的模型文件,可根据需求选择不同的量化方法和比特数,以平衡模型大小和质量。
- 广泛的兼容性:与 llama.cpp、text-generation-webui、KoboldCpp 等多种客户端和库兼容,方便用户在不同的环境中使用。
- 易于使用:支持自动下载和命令行下载,同时提供了详细的使用示例和说明,方便用户快速上手。
📦 安装指南
下载 GGUF 文件
- 自动下载:LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动下载模型,提供可用模型列表供选择。
- 在 text-generation-webui 中下载:在 Download Model 中输入模型仓库地址 TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF,并指定要下载的文件名,如 pygmalion-2-13b-supercot-weighed.q4_K_M.gguf,然后点击 Download。
- 命令行下载:推荐使用
huggingface-hub
Python 库。
pip3 install huggingface-hub>=0.17.1
下载单个模型文件到当前目录:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
若要加速下载(1Gbit/s 或更高连接速度),安装 hf_transfer
:
pip3 install hf_transfer
设置环境变量并下载:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLI 用户在运行下载命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
💻 使用示例
基础用法
llama.cpp 命令示例
确保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高版本。
./main -ngl 32 -m pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
:指定要卸载到 GPU 的层数,若无 GPU 加速可移除该参数。-c 4096
:指定所需的序列长度。对于扩展序列模型(如 8K、16K、32K),必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。- 若要进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。
在 text-generation-webui 中运行
具体说明请参考 text-generation-webui/docs/llama.cpp.md。
从 Python 代码运行
可使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。
使用 ctransformers 加载模型
# 无 GPU 加速的基础 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或使用 Metal GPU 加速(适用于 macOS 系统)
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
from ctransformers import AutoModelForCausalLM
# 设置 gpu_layers 为要卸载到 GPU 的层数。若系统无 GPU 加速,设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF", model_file="pygmalion-2-13b-supercot-weighed.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高级用法
使用 LangChain
可参考以下指南使用 llama-cpp-python 或 ctransformers 与 LangChain 结合:
📚 详细文档
关于 GGUF
GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式,用于替代不再受 llama.cpp 支持的 GGML 格式。GGUF 具有许多优于 GGML 的优点,如更好的分词功能、对特殊标记的支持,还支持元数据,并且设计为可扩展的。
以下是已知支持 GGUF 的客户端和库列表:
- llama.cpp:GGUF 的源项目,提供 CLI 和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持跨所有平台和 GPU 架构的 GPU 加速,特别适合讲故事。
- LM Studio:适用于 Windows 和 macOS(Silicon)的易于使用且功能强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
- llama-cpp-python:一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个专注于性能的 Rust ML 框架,包括 GPU 支持,且易于使用。
可用的仓库
- 用于 GPU 推理的 AWQ 模型
- 用于 GPU 推理的 GPTQ 模型,具有多个量化参数选项
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- royallab 原始未量化的 fp16 模型(pytorch 格式),用于 GPU 推理和进一步转换
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
兼容性
这些量化的 GGUFv2 文件与 8 月 27 日及以后的 llama.cpp 兼容,具体为提交 d0cee0d36d5be95a0d9088b674dbb27354107221 及以后的版本。
它们还与许多第三方 UI 和库兼容,请参阅本 README 顶部的列表。
量化方法说明
点击查看详情
新的可用方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块的比例和最小值用 4 位量化。最终每个权重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。比例用 6 位量化。最终使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。比例和最小值用 6 位量化。最终使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构,最终使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化。超级块有 16 个块,每个块有 16 个权重。比例用 8 位量化。最终使用 6.5625 bpw。
请参考下面的提供文件表,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
名称 | 量化方法 | 比特数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
pygmalion-2-13b-supercot-weighed.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最小,但质量损失显著,不建议用于大多数用途 |
pygmalion-2-13b-supercot-weighed.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常小,但质量损失高 |
pygmalion-2-13b-supercot-weighed.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常小,但质量损失高 |
pygmalion-2-13b-supercot-weighed.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小,但质量损失较大 |
pygmalion-2-13b-supercot-weighed.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | 旧版本;小,但质量损失非常高,建议使用 Q3_K_M |
pygmalion-2-13b-supercot-weighed.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小,但质量损失较大 |
pygmalion-2-13b-supercot-weighed.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中等,质量平衡,推荐使用 |
pygmalion-2-13b-supercot-weighed.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | 旧版本;中等,质量平衡,建议使用 Q4_K_M |
pygmalion-2-13b-supercot-weighed.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大,质量损失低,推荐使用 |
pygmalion-2-13b-supercot-weighed.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大,质量损失非常低,推荐使用 |
pygmalion-2-13b-supercot-weighed.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常大,质量损失极低 |
pygmalion-2-13b-supercot-weighed.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常大,质量损失极低,但不建议使用 |
注意:上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU,这将减少 RAM 使用并使用 VRAM 代替。
如何下载 GGUF 文件
手动下载者注意:几乎不需要克隆整个仓库!提供了多种不同的量化格式,大多数用户只需要选择并下载单个文件。
以下客户端/库将自动为您下载模型,并提供可用模型列表供选择:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中
在 Download Model 下,您可以输入模型仓库地址:TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF,并在其下方输入要下载的特定文件名,例如:pygmalion-2-13b-supercot-weighed.q4_K_M.gguf。
然后点击 Download。
在命令行中,包括一次下载多个文件
建议使用 huggingface-hub
Python 库:
pip3 install huggingface-hub>=0.17.1
然后您可以使用以下命令将任何单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的 huggingface-cli 下载用法
您还可以使用模式一次下载多个文件:
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用 huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。
为了在高速连接(1Gbit/s 或更高)上加速下载,请安装 hf_transfer
:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER
设置为 1
:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLI 用户:在运行下载命令之前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
🔧 技术细节
模型融合
Pygmalion 2 13B SuperCOT Weighed 是一个实验性的加权融合模型,融合了以下两个模型:
融合使用了 zaraki-tools 中的梯度融合脚本(apply-lora-weight-ltl.py)。
融合比例
SuperCOT lora 以以下层权重进行融合(基本上是 50/50,确切比例是 0.51):
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.5,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
可视化
以下是融合的可视化图像,浅蓝色表示 Pygmalion-2-13b,浅绿色表示 SuperCOT lora:
📄 许可证
本模型使用 llama2 许可证。
其他信息
Discord
如需进一步支持,以及讨论这些模型和人工智能相关内容,请加入我们的 Discord 服务器: TheBloke AI's Discord server
感谢与贡献
感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay!
如果您愿意贡献,将非常感激,这将帮助我提供更多的模型并开展新的人工智能项目。捐赠者将在所有 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Alicia Loh、Stephen Murray 等众多支持者。
感谢所有慷慨的赞助者和捐赠者!再次感谢 a16z 的慷慨资助。



