Pygmalion-2-13B-SuperCOT加权模型开源！支持指令交互的文本生成利器

首页

Pygmalion 2 13B SuperCOT Weighed GGUF

由 TheBloke 开发

这是Pygmalion-2-13b与SuperCOT的加权融合实验模型，支持指令格式交互，适用于文本生成任务。

大型语言模型英语#指令优化文本生成 #多格式提示支持 #13B参数量化

下载量 1,468

发布时间 : 9/16/2023

模型简介

基于Pygmalion-2-13b与SuperCOT的加权融合模型，专注于文本生成任务，支持多种指令格式。

模型特点

加权融合技术

结合Pygmalion-2-13b与SuperCOT的优势，通过加权融合提升模型性能

多格式指令支持

支持Metharme和Alpaca等多种指令格式，适应不同交互场景

GGUF量化支持

提供2-8位多种量化版本，平衡模型性能与资源消耗

模型能力

文本生成

指令理解

对话交互

使用案例

对话系统

智能助手

构建能够理解复杂指令的对话助手

内容创作

创意写作

辅助进行故事创作和内容生成

🚀 Pygmalion 2 13B SuperCOT Weighed - GGUF

Pygmalion 2 13B SuperCOT Weighed - GGUF 是一个基于特定模型融合的文本生成模型，结合了 Pygmalion 2 13b 和 SuperCOT 的优势，可用于多种文本生成任务。

🚀 快速开始

本模型可用于文本生成任务，支持多种量化格式以适应不同的硬件和使用场景。以下是使用该模型的一些基本信息和步骤。

✨ 主要特性

多种量化格式支持：提供了包括 Q2_K、Q3_K、Q4_K 等多种量化格式的模型文件，可根据需求选择不同的量化方法和比特数，以平衡模型大小和质量。
广泛的兼容性：与 llama.cpp、text-generation-webui、KoboldCpp 等多种客户端和库兼容，方便用户在不同的环境中使用。
易于使用：支持自动下载和命令行下载，同时提供了详细的使用示例和说明，方便用户快速上手。

📦 安装指南

下载 GGUF 文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动下载模型，提供可用模型列表供选择。
在 text-generation-webui 中下载：在 Download Model 中输入模型仓库地址 TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF，并指定要下载的文件名，如 pygmalion-2-13b-supercot-weighed.q4_K_M.gguf，然后点击 Download。
命令行下载：推荐使用 huggingface-hub Python 库。

pip3 install huggingface-hub>=0.17.1

下载单个模型文件到当前目录：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要加速下载（1Gbit/s 或更高连接速度），安装 hf_transfer：

pip3 install hf_transfer

设置环境变量并下载：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用户在运行下载命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

💻 使用示例

基础用法

llama.cpp 命令示例

确保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高版本。

./main -ngl 32 -m pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"

-ngl 32：指定要卸载到 GPU 的层数，若无 GPU 加速可移除该参数。
-c 4096：指定所需的序列长度。对于扩展序列模型（如 8K、16K、32K），必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

在 text-generation-webui 中运行

具体说明请参考 text-generation-webui/docs/llama.cpp.md。

从 Python 代码运行

可使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。

使用 ctransformers 加载模型

# 无 GPU 加速的基础 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或使用 Metal GPU 加速（适用于 macOS 系统）
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

from ctransformers import AutoModelForCausalLM

# 设置 gpu_layers 为要卸载到 GPU 的层数。若系统无 GPU 加速，设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF", model_file="pygmalion-2-13b-supercot-weighed.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高级用法

使用 LangChain

可参考以下指南使用 llama-cpp-python 或 ctransformers 与 LangChain 结合：

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，用于替代不再受 llama.cpp 支持的 GGML 格式。GGUF 具有许多优于 GGML 的优点，如更好的分词功能、对特殊标记的支持，还支持元数据，并且设计为可扩展的。

以下是已知支持 GGUF 的客户端和库列表：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持跨所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且功能强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持，且易于使用。

可用的仓库

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

兼容性

这些量化的 GGUFv2 文件与 8 月 27 日及以后的 llama.cpp 兼容，具体为提交 d0cee0d36d5be95a0d9088b674dbb27354107221 及以后的版本。

它们还与许多第三方 UI 和库兼容，请参阅本 README 顶部的列表。

量化方法说明

点击查看详情

新的可用方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的比例和最小值用 4 位量化。最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。比例用 6 位量化。最终使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。比例和最小值用 6 位量化。最终使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化。超级块有 16 个块，每个块有 16 个权重。比例用 8 位量化。最终使用 6.5625 bpw。

请参考下面的提供文件表，了解哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	比特数	大小	所需最大 RAM	使用场景
pygmalion-2-13b-supercot-weighed.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但质量损失显著，不建议用于大多数用途
pygmalion-2-13b-supercot-weighed.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但质量损失高
pygmalion-2-13b-supercot-weighed.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但质量损失高
pygmalion-2-13b-supercot-weighed.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但质量损失较大
pygmalion-2-13b-supercot-weighed.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	旧版本；小，但质量损失非常高，建议使用 Q3_K_M
pygmalion-2-13b-supercot-weighed.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但质量损失较大
pygmalion-2-13b-supercot-weighed.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，质量平衡，推荐使用
pygmalion-2-13b-supercot-weighed.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	旧版本；中等，质量平衡，建议使用 Q4_K_M
pygmalion-2-13b-supercot-weighed.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，质量损失低，推荐使用
pygmalion-2-13b-supercot-weighed.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，质量损失非常低，推荐使用
pygmalion-2-13b-supercot-weighed.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，质量损失极低
pygmalion-2-13b-supercot-weighed.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，质量损失极低，但不建议使用

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，这将减少 RAM 使用并使用 VRAM 代替。

如何下载 GGUF 文件

手动下载者注意：几乎不需要克隆整个仓库！提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件。

以下客户端/库将自动为您下载模型，并提供可用模型列表供选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中

在 Download Model 下，您可以输入模型仓库地址：TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF，并在其下方输入要下载的特定文件名，例如：pygmalion-2-13b-supercot-weighed.q4_K_M.gguf。

然后点击 Download。

在命令行中，包括一次下载多个文件

建议使用 huggingface-hub Python 库：

pip3 install huggingface-hub>=0.17.1

然后您可以使用以下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的 huggingface-cli 下载用法

您还可以使用模式一次下载多个文件：

huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。

为了在高速连接（1Gbit/s 或更高）上加速下载，请安装 hf_transfer：

pip3 install hf_transfer

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用户：在运行下载命令之前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

🔧 技术细节

模型融合

Pygmalion 2 13B SuperCOT Weighed 是一个实验性的加权融合模型，融合了以下两个模型：

融合使用了 zaraki-tools 中的梯度融合脚本（apply-lora-weight-ltl.py）。

融合比例

SuperCOT lora 以以下层权重进行融合（基本上是 50/50，确切比例是 0.51）：

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.5,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1

可视化

以下是融合的可视化图像，浅蓝色表示 Pygmalion-2-13b，浅绿色表示 SuperCOT lora： gradient-image

📄 许可证

本模型使用 llama2 许可证。

其他信息

Discord

如需进一步支持，以及讨论这些模型和人工智能相关内容，请加入我们的 Discord 服务器： TheBloke AI's Discord server

感谢与贡献

感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay！

如果您愿意贡献，将非常感激，这将帮助我提供更多的模型并开展新的人工智能项目。捐赠者将在所有 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Alicia Loh、Stephen Murray 等众多支持者。

感谢所有慷慨的赞助者和捐赠者！再次感谢 a16z 的慷慨资助。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库