Manticore 13B Chat Pyg开源聊天模型 - 适配多硬件多客户端免费可用

首页

Manticore 13b Chat Pyg GGUF

由 TheBloke 开发

Manticore 13B Chat Pyg是基于Llama 13B模型微调的聊天模型，支持多种客户端和库，提供多种量化方法以适应不同硬件条件。

大型语言模型

Transformers

英语开源协议:其他 #角色扮演对话 #多轮问答优化 #低资源推理

下载量 327

发布时间 : 9/20/2023

模型简介

该模型是一个13B参数的聊天模型，基于特定数据集训练，支持文本生成任务，兼容多种推理工具和库。

模型特点

GGUF格式支持

采用最新的GGUF格式，替代不再受支持的GGML格式，提供更好的兼容性和性能。

多客户端兼容

与llama.cpp、text-generation-webui、KoboldCpp等多种客户端和库兼容，满足不同用户需求。

多种量化方法

提供多种量化方法，可根据不同的使用场景和硬件条件选择合适的量化文件，平衡模型大小和质量。

模型能力

文本生成

聊天对话

指令增强

使用案例

聊天机器人

智能助手

用于构建智能助手，提供详细、礼貌的回答。

教育

解题辅助

用于解答数学和科学问题，提供详细的解释。

🚀 Manticore 13B Chat Pyg

本项目提供了Manticore 13B Chat Pyg模型的GGUF格式文件，方便用户进行文本生成相关的推理任务。该模型基于特定数据集训练，在多种客户端和库中都有良好的支持。

🚀 快速开始

本仓库包含 Open Access AI Collective 的 Manticore 13B Chat Pyg 模型的 GGUF 格式文件。

✨ 主要特性

新格式支持：采用 llama.cpp 团队于 2023 年 8 月 21 日推出的 GGUF 新格式，替代不再受支持的 GGML 格式。
多客户端兼容：与众多客户端和库兼容，如 llama.cpp、text-generation-webui、KoboldCpp 等，满足不同用户的使用需求。
多种量化方法：提供多种量化方法，可根据不同的使用场景和硬件条件选择合适的量化文件，平衡模型大小和质量。

📦 安装指南

下载 GGUF 文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动为你下载模型，并提供可用模型列表供选择。
text-generation-webui 中下载：在 Download Model 下，输入模型仓库地址 TheBloke/manticore-13b-chat-pyg-GGUF，以及具体要下载的文件名，如 manticore-13b-chat-pyg.Q4_K_M.gguf，然后点击 Download。

命令行下载：推荐使用 huggingface-hub Python 库进行下载。

pip3 install huggingface-hub

下载单个模型文件到当前目录，可使用如下命令：

huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要同时下载多个文件，可使用模式匹配：

huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

若要加速高速连接（1Gbit/s 或更高）下的下载，可安装 hf_transfer：

pip3 install hf_transfer

并设置环境变量 HF_HUB_ENABLE_HF_TRANSFER 为 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用户可在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 设置环境变量。

💻 使用示例

llama.cpp 命令示例

确保使用的是 d0cee0d 或更新版本的 llama.cpp。

./main -ngl 32 -m manticore-13b-chat-pyg.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32：将其改为要卸载到 GPU 的层数，若没有 GPU 加速可移除该参数。
-c 2048：改为所需的序列长度，对于扩展序列模型（如 8K、16K、32K），必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。其他参数及使用方法请参考 llama.cpp 文档。

在 text-generation-webui 中运行

更多说明请参考 text-generation-webui/docs/llama.cpp.md。

从 Python 代码运行

可使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。

使用 ctransformers 加载模型

首先根据系统运行以下命令之一安装包：

# 无 GPU 加速的基础 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速（仅适用于 Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 macOS 系统的 Metal GPU 加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers

简单的 ctransformers 示例代码：

from ctransformers import AutoModelForCausalLM

# 将 gpu_layers 设置为要卸载到 GPU 的层数，若系统无 GPU 加速则设置为 0
llm = AutoModelForCausalLM.from_pretrained("TheBloke/manticore-13b-chat-pyg-GGUF", model_file="manticore-13b-chat-pyg.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

与 LangChain 结合使用

以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 结合的指南：

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的新格式，用于替代不再受 llama.cpp 支持的 GGML 格式。

以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持跨所有平台和 GPU 架构的 GPU 加速，尤其适合讲故事。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持，且易于使用。

可用仓库

提示模板

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

兼容性

这些量化的 GGUFv2 文件与 2023 年 8 月 27 日及以后的 llama.cpp 版本兼容，对应提交为 d0cee0d。

它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。

量化方法解释

点击查看详情

新的可用方法如下：

GGML_TYPE_Q2_K - “类型 1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块尺度和最小值用 4 位量化，最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “类型 0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。尺度用 6 位量化，最终使用 3.4375 bpw。
GGML_TYPE_Q4_K - “类型 1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。尺度和最小值用 6 位量化，最终使用 4.5 bpw。
GGML_TYPE_Q5_K - “类型 1” 5 位量化，与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。
GGML_TYPE_Q6_K - “类型 0” 6 位量化，超级块包含 16 个块，每个块有 16 个权重。尺度用 8 位量化，最终使用 6.5625 bpw。

请参考下面的提供文件表，查看哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	位数	大小	所需最大 RAM	使用场景
manticore-13b-chat-pyg.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但有显著质量损失，不推荐用于大多数情况
manticore-13b-chat-pyg.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但有较高质量损失
manticore-13b-chat-pyg.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但有较高质量损失
manticore-13b-chat-pyg.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但有较大质量损失
manticore-13b-chat-pyg.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	旧版；小，但有非常高的质量损失，建议使用 Q3_K_M
manticore-13b-chat-pyg.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但有较大质量损失
manticore-13b-chat-pyg.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，质量平衡，推荐使用
manticore-13b-chat-pyg.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	旧版；中等，质量平衡，建议使用 Q4_K_M
manticore-13b-chat-pyg.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，质量损失低，推荐使用
manticore-13b-chat-pyg.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，质量损失非常低，推荐使用
manticore-13b-chat-pyg.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，质量损失极低
manticore-13b-chat-pyg.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，质量损失极低，不推荐使用

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，这将减少 RAM 使用并使用 VRAM 代替。

🔧 技术细节

模型训练

Manticore 13B Chat 是基于 Llama 13B 模型在以下数据集上进行微调的，同时包含原始 Manticore 13B 的数据集。

Manticore 13B Chat 在以下数据集的 25% 上进行训练。这些数据集被合并、洗牌，然后分片为 4 部分。

去重的 Pygmalion 数据集，过滤为角色扮演（RP）数据
riddle_sense - 指令增强
hellaswag，更新为包含详细解释，超过 30K 行
gsm8k - 指令增强
ewof/code-alpaca-instruct-unfiltered

Manticore 13B

ShareGPT - 基于清理和去重的子集
WizardLM
Wizard-Vicuna
QingyiSi/Alpaca-CoT 用于角色扮演和思维链（CoT）的子集
GPT4-LLM-Cleaned
GPTeacher-General-Instruct
ARC-Easy 和 ARC-Challenge - 指令增强以获得详细响应，源自 train 分割
hellaswag - 5K 行子集，指令增强以获得简洁响应，源自 train 分割
metaeval/ScienceQA_text_only - 指令增强

📄 许可证

本项目使用其他许可证。

其他信息

Discord

如需进一步支持，以及讨论这些模型和通用 AI，请加入我们的 TheBloke AI 的 Discord 服务器。

感谢与贡献

感谢 chirper.ai 团队！

感谢 gpus.llm-utils.org 的 Clay！

很多人询问是否可以贡献。我喜欢提供模型并帮助他人，希望能有更多时间做这些事，也希望能拓展到新的项目，如微调/训练。

如果您有能力且愿意贡献，将不胜感激，这将帮助我继续提供更多模型，并开展新的 AI 项目。

捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

感谢所有慷慨的赞助者和捐赠者！

再次感谢 a16z 的慷慨资助。