模型简介
模型特点
模型能力
使用案例
🚀 Pivot 0.1 Evil A - GGUF
本项目提供了 Jeonghwan Park 的 Pivot 0.1 Evil A 模型的 GGUF 格式文件。这些文件由 Massed Compute 提供的硬件进行量化处理。
🚀 快速开始
本仓库包含了 Jeonghwan Park 的 Pivot 0.1 Evil A 模型的 GGUF 格式文件。这些文件是使用 Massed Compute 慷慨提供的硬件进行量化的。
✨ 主要特性
- 多格式支持:提供了多种量化格式的模型文件,包括不同比特数和量化方法,以满足不同的使用场景和硬件要求。
- 广泛兼容:与多种客户端和库兼容,如 llama.cpp、text-generation-webui、KoboldCpp 等,方便用户在不同环境中使用。
- 多语言支持:支持英语和韩语,适用于不同语言需求的用户。
📦 安装指南
下载 GGUF 文件
自动下载
以下客户端/库会自动为你下载模型,并提供可用模型列表供你选择:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中下载
在“Download Model”下,输入模型仓库地址 TheBloke/PiVoT-0.1-Evil-a-GGUF
,并在下方输入要下载的具体文件名,如 pivot-0.1-evil-a.Q4_K_M.gguf
,然后点击“Download”。
命令行下载
推荐使用 huggingface-hub
Python 库进行下载:
pip3 install huggingface-hub
然后可以使用以下命令将单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/PiVoT-0.1-Evil-a-GGUF pivot-0.1-evil-a.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
安装依赖库
如果你想从 Python 代码中使用 GGUF 模型,可以使用 llama-cpp-python 或 ctransformers 库。以下是安装 ctransformers
库的示例命令:
# 无 GPU 加速的基础 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速(仅适用于 Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 Metal GPU 加速(仅适用于 macOS 系统)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
💻 使用示例
基础用法
llama.cpp
命令示例
确保你使用的是 d0cee0d 或更新版本的 llama.cpp
:
./main -ngl 32 -m pivot-0.1-evil-a.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
:将其更改为要卸载到 GPU 的层数。如果没有 GPU 加速,请移除该参数。-c 2048
:将其更改为所需的序列长度。对于扩展序列模型(如 8K、16K、32K),必要的 RoPE 缩放参数会从 GGUF 文件中读取并由 llama.cpp 自动设置。- 如果你想进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。
Python 代码示例(使用 ctransformers
)
from ctransformers import AutoModelForCausalLM
# 将 gpu_layers 设置为要卸载到 GPU 的层数。如果系统上没有 GPU 加速,请将其设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/PiVoT-0.1-Evil-a-GGUF", model_file="pivot-0.1-evil-a.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
高级用法
与 LangChain 结合使用
以下是使用 llama-cpp-python
和 ctransformers
与 LangChain 的指南:
📚 详细文档
关于 GGUF
GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式,它取代了不再受 llama.cpp 支持的 GGML 格式。
以下是已知支持 GGUF 的客户端和库的不完全列表:
- llama.cpp:GGUF 的源项目,提供 CLI 和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持跨所有平台和 GPU 架构的 GPU 加速,特别适合讲故事。
- LM Studio:适用于 Windows 和 macOS(Silicon)的易于使用且功能强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,方便用户选择模型。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一个 Python 库,支持 GPU 加速、LangChain 集成和与 OpenAI 兼容的 AI 服务器。
- llama-cpp-python:一个 Python 库,支持 GPU 加速、LangChain 集成和与 OpenAI 兼容的 API 服务器。
- candle:一个 Rust ML 框架,注重性能,包括 GPU 支持和易用性。
可用仓库
- 用于 GPU 推理的 AWQ 模型
- 用于 GPU 推理的 GPTQ 模型,具有多种量化参数选项
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- Jeonghwan Park 原始未量化的 fp16 格式 PyTorch 模型,用于 GPU 推理和进一步转换
提示模板
### Instruction:
{prompt}
### Response:
兼容性
这些量化的 GGUFv2 文件与 2023 年 8 月 27 日之后的 llama.cpp 兼容,具体为提交 d0cee0d 及以后的版本。
它们还与许多第三方 UI 和库兼容,请参阅本 README 顶部的列表。
量化方法说明
点击查看详情
新的可用方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块的缩放和最小值用 4 位量化,最终每个权重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。缩放用 6 位量化,最终使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。缩放和最小值用 6 位量化,最终使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化,与 GGML_TYPE_Q4_K 具有相同的超级块结构,最终使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化,超级块包含 16 个块,每个块有 16 个权重。缩放用 8 位量化,最终使用 6.5625 bpw。
请参考下面的“提供的文件”表,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
名称 | 量化方法 | 比特数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
pivot-0.1-evil-a.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,但质量损失显著,不推荐用于大多数场景 |
pivot-0.1-evil-a.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,但质量损失高 |
pivot-0.1-evil-a.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,但质量损失高 |
pivot-0.1-evil-a.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,但质量损失较大 |
pivot-0.1-evil-a.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 旧版;小,但质量损失非常高,建议使用 Q3_K_M |
pivot-0.1-evil-a.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,但质量损失更大 |
pivot-0.1-evil-a.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,质量平衡,推荐使用 |
pivot-0.1-evil-a.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 旧版;中等,质量平衡,建议使用 Q4_K_M |
pivot-0.1-evil-a.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,质量损失低,推荐使用 |
pivot-0.1-evil-a.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,质量损失非常低,推荐使用 |
pivot-0.1-evil-a.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,质量损失极低 |
pivot-0.1-evil-a.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,质量损失极低,但不推荐使用 |
注意:上述 RAM 数字假设没有进行 GPU 卸载。如果将层卸载到 GPU,将减少 RAM 使用并使用 VRAM。
🔧 技术细节
PivoT 是基于 Mistral 7B 的微调模型,它是 Synatra v0.3 RP 的变体,表现出了不错的性能。PiVoT-0.1-Evil-a 是 PiVoT 的“Evil tuned”版本,通过特定方法进行微调。PiVot-0.1-Evil-b 则进行了 Noisy Embedding 微调,结果可能更具多样性。
在微调过程中使用了 OpenOrca 数据集,以及 Arcalive Ai Chat Chan 日志 7k、ko_wikidata_QA、kyujinpy/OpenOrca-KO 等数据集。
📄 许可证
本项目采用 cc-by-sa-4.0
许可证。
其他信息
Discord
如需进一步支持,以及参与这些模型和 AI 相关的讨论,请加入我们的 Discord 服务器:TheBloke AI's Discord server
感谢与贡献
感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay!
如果你愿意并能够提供贡献,将不胜感激,这将帮助我继续提供更多模型,并开展新的 AI 项目。捐赠者将在所有 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、ÈòøÊòé、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bj√§reholt、John Detwiler、Leonard Tan、Iucharbius
感谢所有慷慨的赞助者和捐赠者!再次感谢 a16z 的慷慨资助。



