模型简介
模型特点
模型能力
使用案例
🚀 Manticore 13B Chat Pyg
本项目提供了Manticore 13B Chat Pyg模型的GGUF格式文件,方便用户进行文本生成相关的推理任务。该模型基于特定数据集训练,在多种客户端和库中都有良好的支持。
🚀 快速开始
本仓库包含 Open Access AI Collective 的 Manticore 13B Chat Pyg 模型的 GGUF 格式文件。
✨ 主要特性
- 新格式支持:采用 llama.cpp 团队于 2023 年 8 月 21 日推出的 GGUF 新格式,替代不再受支持的 GGML 格式。
- 多客户端兼容:与众多客户端和库兼容,如 llama.cpp、text-generation-webui、KoboldCpp 等,满足不同用户的使用需求。
- 多种量化方法:提供多种量化方法,可根据不同的使用场景和硬件条件选择合适的量化文件,平衡模型大小和质量。
📦 安装指南
下载 GGUF 文件
- 自动下载:LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动为你下载模型,并提供可用模型列表供选择。
- text-generation-webui 中下载:在 Download Model 下,输入模型仓库地址 TheBloke/manticore-13b-chat-pyg-GGUF,以及具体要下载的文件名,如 manticore-13b-chat-pyg.Q4_K_M.gguf,然后点击 Download。
- 命令行下载:推荐使用
huggingface-hub
Python 库进行下载。
下载单个模型文件到当前目录,可使用如下命令:pip3 install huggingface-hub
若要同时下载多个文件,可使用模式匹配:huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
若要加速高速连接(1Gbit/s 或更高)下的下载,可安装huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
hf_transfer
:
并设置环境变量pip3 install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER
为1
:
Windows 命令行用户可在下载命令前运行HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
set HF_HUB_ENABLE_HF_TRANSFER=1
设置环境变量。
💻 使用示例
llama.cpp 命令示例
确保使用的是 d0cee0d 或更新版本的 llama.cpp
。
./main -ngl 32 -m manticore-13b-chat-pyg.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"
-ngl 32
:将其改为要卸载到 GPU 的层数,若没有 GPU 加速可移除该参数。-c 2048
:改为所需的序列长度,对于扩展序列模型(如 8K、16K、32K),必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。- 若要进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。 其他参数及使用方法请参考 llama.cpp 文档。
在 text-generation-webui 中运行
更多说明请参考 text-generation-webui/docs/llama.cpp.md。
从 Python 代码运行
可使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。
使用 ctransformers 加载模型
首先根据系统运行以下命令之一安装包:
# 无 GPU 加速的基础 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速(仅适用于 Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 macOS 系统的 Metal GPU 加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers
简单的 ctransformers 示例代码:
from ctransformers import AutoModelForCausalLM
# 将 gpu_layers 设置为要卸载到 GPU 的层数,若系统无 GPU 加速则设置为 0
llm = AutoModelForCausalLM.from_pretrained("TheBloke/manticore-13b-chat-pyg-GGUF", model_file="manticore-13b-chat-pyg.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
与 LangChain 结合使用
以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 结合的指南:
📚 详细文档
关于 GGUF
GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的新格式,用于替代不再受 llama.cpp 支持的 GGML 格式。
以下是已知支持 GGUF 的客户端和库的不完全列表:
- llama.cpp:GGUF 的源项目,提供 CLI 和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持跨所有平台和 GPU 架构的 GPU 加速,尤其适合讲故事。
- LM Studio:适用于 Windows 和 macOS(Silicon)的易于使用且强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。
- llama-cpp-python:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个专注于性能的 Rust ML 框架,包括 GPU 支持,且易于使用。
可用仓库
- 用于 GPU 推理的 AWQ 模型。
- 用于 GPU 推理的 GPTQ 模型,具有多个量化参数选项。
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型。
- Open Access AI Collective 原始未量化的 fp16 格式 PyTorch 模型,用于 GPU 推理和进一步转换。
提示模板
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:
兼容性
这些量化的 GGUFv2 文件与 2023 年 8 月 27 日及以后的 llama.cpp 版本兼容,对应提交为 d0cee0d。
它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。
量化方法解释
点击查看详情
新的可用方法如下:
- GGML_TYPE_Q2_K - “类型 1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块尺度和最小值用 4 位量化,最终每个权重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K - “类型 0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。尺度用 6 位量化,最终使用 3.4375 bpw。
- GGML_TYPE_Q4_K - “类型 1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。尺度和最小值用 6 位量化,最终使用 4.5 bpw。
- GGML_TYPE_Q5_K - “类型 1” 5 位量化,与 GGML_TYPE_Q4_K 具有相同的超级块结构,最终使用 5.5 bpw。
- GGML_TYPE_Q6_K - “类型 0” 6 位量化,超级块包含 16 个块,每个块有 16 个权重。尺度用 8 位量化,最终使用 6.5625 bpw。
请参考下面的提供文件表,查看哪些文件使用了哪些方法以及如何使用。
提供的文件
名称 | 量化方法 | 位数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
manticore-13b-chat-pyg.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最小,但有显著质量损失,不推荐用于大多数情况 |
manticore-13b-chat-pyg.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常小,但有较高质量损失 |
manticore-13b-chat-pyg.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常小,但有较高质量损失 |
manticore-13b-chat-pyg.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小,但有较大质量损失 |
manticore-13b-chat-pyg.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | 旧版;小,但有非常高的质量损失,建议使用 Q3_K_M |
manticore-13b-chat-pyg.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小,但有较大质量损失 |
manticore-13b-chat-pyg.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中等,质量平衡,推荐使用 |
manticore-13b-chat-pyg.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | 旧版;中等,质量平衡,建议使用 Q4_K_M |
manticore-13b-chat-pyg.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大,质量损失低,推荐使用 |
manticore-13b-chat-pyg.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大,质量损失非常低,推荐使用 |
manticore-13b-chat-pyg.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常大,质量损失极低 |
manticore-13b-chat-pyg.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常大,质量损失极低,不推荐使用 |
注意:上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU,这将减少 RAM 使用并使用 VRAM 代替。
🔧 技术细节
模型训练
Manticore 13B Chat 是基于 Llama 13B 模型在以下数据集上进行微调的,同时包含原始 Manticore 13B 的数据集。
Manticore 13B Chat 在以下数据集的 25% 上进行训练。这些数据集被合并、洗牌,然后分片为 4 部分。
- 去重的 Pygmalion 数据集,过滤为角色扮演(RP)数据
- riddle_sense - 指令增强
- hellaswag,更新为包含详细解释,超过 30K 行
- gsm8k - 指令增强
- ewof/code-alpaca-instruct-unfiltered
Manticore 13B
- ShareGPT - 基于清理和去重的子集
- WizardLM
- Wizard-Vicuna
- QingyiSi/Alpaca-CoT 用于角色扮演和思维链(CoT)的子集
- GPT4-LLM-Cleaned
- GPTeacher-General-Instruct
- ARC-Easy 和 ARC-Challenge - 指令增强以获得详细响应,源自
train
分割 - hellaswag - 5K 行子集,指令增强以获得简洁响应,源自
train
分割 - metaeval/ScienceQA_text_only - 指令增强
📄 许可证
本项目使用其他许可证。
其他信息
Discord
如需进一步支持,以及讨论这些模型和通用 AI,请加入我们的 TheBloke AI 的 Discord 服务器。
感谢与贡献
感谢 chirper.ai 团队!
感谢 gpus.llm-utils.org 的 Clay!
很多人询问是否可以贡献。我喜欢提供模型并帮助他人,希望能有更多时间做这些事,也希望能拓展到新的项目,如微调/训练。
如果您有能力且愿意贡献,将不胜感激,这将帮助我继续提供更多模型,并开展新的 AI 项目。
捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐赠者!
再次感谢 a16z 的慷慨资助。



