Mythalion-13B-GGUF开源大语言模型 - 免费实现文本生成与指令跟随

首页

Mythalion 13B GGUF

由 TheBloke 开发

Mythalion 13B是由PygmalionAI开发的13B参数规模的大语言模型，基于Llama架构，专注于文本生成和指令跟随任务。

大型语言模型英语#多轮对话优化 #角色扮演专用 #指令跟随型

下载量 2,609

发布时间 : 9/5/2023

模型简介

这是一个13B参数规模的指令跟随型大语言模型，支持英文文本生成，适用于对话、创作和问答等多种场景。

模型特点

多数据集训练

融合了PIPPA、OpenOrca等多个高质量数据集进行训练

指令跟随

专门优化用于理解和执行用户指令

量化支持

提供多种量化版本，适应不同硬件需求

模型能力

文本生成

指令理解

多轮对话

故事创作

问答系统

使用案例

创意写作

故事生成

根据用户提示生成连贯的故事内容

对话系统

角色扮演对话

模拟特定角色的对话风格和行为模式

🚀 Mythalion 13B - GGUF

Mythalion 13B - GGUF 是由 PygmalionAI 创建的文本生成模型，基于 Llama 架构。它使用了多个数据集进行训练，可用于生成文本内容。本项目提供了多种量化格式的模型文件，支持不同的推理方式和使用场景。

🚀 快速开始

下载模型文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动为你下载模型，并提供可用模型列表供你选择。
text-generation-webui 中下载：在 Download Model 下，输入模型仓库地址 TheBloke/Mythalion-13B-GGUF，然后在下方输入要下载的具体文件名，如 mythalion-13b.q4_K_M.gguf，最后点击 Download。
命令行下载：推荐使用 huggingface-hub Python 库。首先安装：

pip3 install huggingface-hub>=0.17.1

然后使用以下命令高速下载单个模型文件到当前目录：

huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

运行模型

llama.cpp 命令示例

确保使用的是 2023 年 8 月 27 日之后的 llama.cpp 版本（提交号：d0cee0d36d5be95a0d9088b674dbb27354107221）。

./main -ngl 32 -m mythalion-13b.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:"

-ngl 32：将其改为要卸载到 GPU 的层数。如果没有 GPU 加速，请移除该参数。
-c 4096：改为所需的序列长度。对于扩展序列模型（如 8K、16K、32K），必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

在 text-generation-webui 中运行

更多说明请参考：text-generation-webui/docs/llama.cpp.md。

从 Python 代码运行

可以使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。

✨ 主要特性

多数据集训练：使用了 PygmalionAI/PIPPA、Open-Orca/OpenOrca 等多个数据集进行训练，提升了模型的性能和泛化能力。
多种量化格式：提供了 Q2_K、Q3_K_S 等多种量化格式的模型文件，可根据不同的需求选择合适的文件，平衡模型大小和质量。
广泛的兼容性：支持 llama.cpp、text-generation-webui 等多种客户端和库，方便用户进行推理和使用。

📦 安装指南

安装依赖库

若要使用命令行下载模型文件，需安装 huggingface-hub Python 库：

pip3 install huggingface-hub>=0.17.1

若要加速下载（在 1Gbit/s 或更高的高速连接上），安装 hf_transfer：

pip3 install hf_transfer

并设置环境变量 HF_HUB_ENABLE_HF_TRANSFER 为 1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用户在运行下载命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

安装 ctransformers 库（用于 Python 代码运行）

# 无 GPU 加速的基础 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或为 macOS 系统使用 Metal GPU 加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

💻 使用示例

基础用法

from ctransformers import AutoModelForCausalLM

# 将 gpu_layers 设置为要卸载到 GPU 的层数。如果系统上没有 GPU 加速，则设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高级用法

在实际应用中，可以根据具体需求调整模型的参数，如温度、重复惩罚等，以获得不同风格和质量的生成结果。同时，可以结合 LangChain 等工具，实现更复杂的自然语言处理任务。

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。GGUF 具有许多优于 GGML 的优点，如更好的分词、对特殊令牌的支持，还支持元数据，并且设计为可扩展的。

以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且功能强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持和易用性。

可用的仓库

提示模板

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

兼容性

这些量化的 GGUFv2 文件与 2023 年 8 月 27 日之后的 llama.cpp 版本兼容（提交号：d0cee0d36d5be95a0d9088b674dbb27354107221）。

它们也与许多第三方 UI 和库兼容，请参阅本 README 顶部的列表。

量化方法解释

点击查看详情

新的可用方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的比例和最小值用 4 位量化。最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。比例用 6 位量化。最终使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。比例和最小值用 6 位量化。最终使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化。超级块包含 16 个块，每个块有 16 个权重。比例用 8 位量化。最终使用 6.5625 bpw。

请参考下面的提供文件表，查看哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	位数	大小	所需最大 RAM	使用场景
mythalion-13b.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但质量损失显著，不建议用于大多数用途
mythalion-13b.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但质量损失高
mythalion-13b.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但质量损失高
mythalion-13b.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但质量损失较大
mythalion-13b.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	旧版本；小，但质量损失非常高，建议使用 Q3_K_M
mythalion-13b.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但质量损失更大
mythalion-13b.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，质量平衡，推荐使用
mythalion-13b.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	旧版本；中等，质量平衡，建议使用 Q4_K_M
mythalion-13b.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，质量损失低，推荐使用
mythalion-13b.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，质量损失非常低，推荐使用
mythalion-13b.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，质量损失极低
mythalion-13b.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，质量损失极低，不建议使用

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，这将减少 RAM 使用并使用 VRAM 代替。

🔧 技术细节

模型类型和基础模型

Mythalion 13B 基于 Llama 架构，基础模型为 PygmalionAI/mythalion-13b。它是 Pygmalion-2 13B 和 MythoMax 13B 的融合模型。

训练数据

该模型使用了多个数据集进行训练，包括：

PygmalionAI/PIPPA
Open-Orca/OpenOrca
Norquinal/claude_multiround_chat_30k
jondurbin/airoboros-gpt4-1.4.1
databricks/databricks-dolly-15k

量化处理

由 TheBloke 进行量化处理，提供了多种量化方法和格式的模型文件，以满足不同的需求和硬件条件。

📄 许可证

本模型使用 Llama2 许可证，可用于商业和非商业用途。

其他信息

Discord

如需进一步支持，或讨论这些模型和 AI 相关内容，请加入：TheBloke AI 的 Discord 服务器

感谢与贡献

感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay！

如果您能够并愿意做出贡献，将不胜感激，这将帮助我继续提供更多模型，并开展新的 AI 项目。捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Alicia Loh、Stephen Murray 等众多支持者。

再次感谢 a16z 的慷慨资助！

原始模型卡片

模型详情

Mythalion 13B 是 Pygmalion-2 13B 和 MythoMax 13B 的融合模型，由 PygmalionAI 与 Gryphe 合作创建。融合的更多细节可在我们的博客文章中查看。

该模型根据测试者反馈，在角色扮演/聊天方面似乎优于 MythoMax。请确保遵循此处推荐的 SillyTavern 生成设置以获得最佳效果！

本模型根据 Llama-2 许可证，可免费用于商业和非商业用途。

提示方式

该模型可以使用 Alpaca 和 Pygmalion 格式进行提示。

Alpaca 格式：

### Instruction:
<prompt>

### Response:
<留一个空行供模型回复>

Pygmalion/Metharme 格式：

<|system|>Enter RP mode. Pretend to be {{char}} whose persona follows:
{{persona}}

You shall reply to the user while staying in character, and generate long responses.
<|user|>Hello!<|model|>{model's response goes here}

模型在训练时使用了三种不同角色的提示，由以下令牌表示：<|system|>、<|user|> 和 <|model|>。