模型简介
模型特点
模型能力
使用案例
🚀 Fiction Live Kimiko V2 70B - GGUF
本项目提供了 Fiction Live Kimiko V2 70B
模型的 GGUF 格式文件,可用于不同场景的推理,支持多种客户端和库,方便用户使用。
🚀 快速开始
确保使用的 llama.cpp
是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更新的提交版本。以下是一个示例命令:
./main -ngl 32 -m fiction.live-Kimiko-V2-70B.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"
- 将
-ngl 32
改为要卸载到 GPU 的层数。如果没有 GPU 加速,请删除该参数。 - 将
-c 4096
改为所需的序列长度。对于扩展序列模型(如 8K、16K、32K),必要的 RoPE 缩放参数会从 GGUF 文件中读取,并由 llama.cpp 自动设置。 - 如果想进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。
✨ 主要特性
- 支持多种格式:提供了 AWQ、GPTQ、GGUF 等多种格式的模型文件,可满足不同的推理需求。
- 广泛的兼容性:与多个客户端和库兼容,包括 llama.cpp、text-generation-webui、KoboldCpp 等。
- 多种量化方法:支持 Q2_K、Q3_K、Q4_K 等多种量化方法,可根据需求选择不同的量化级别。
📦 安装指南
下载 GGUF 文件
- 自动下载:LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动下载模型,并提供可用模型列表供选择。
- 在
text-generation-webui
中下载:在“Download Model”下输入模型仓库TheBloke/fiction.live-Kimiko-V2-70B-GGUF
,并在下方输入要下载的具体文件名,如fiction.live-Kimiko-V2-70B.q4_K_M.gguf
,然后点击“Download”。 - 命令行下载:推荐使用
huggingface-hub
Python 库,先安装:
pip3 install huggingface-hub>=0.17.1
然后使用以下命令下载单个模型文件到当前目录:
huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF fiction.live-Kimiko-V2-70B.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
💻 使用示例
在 text-generation-webui
中运行
具体说明请参考 text-generation-webui/docs/llama.cpp.md。
从 Python 代码运行
可以使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。
使用 ctransformers 从 Python 加载此模型
首先安装包:
# 无 GPU 加速的基础 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或为 macOS 系统使用 Metal GPU 加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
简单的示例代码来加载其中一个 GGUF 模型:
from ctransformers import AutoModelForCausalLM
# 将 gpu_layers 设置为要卸载到 GPU 的层数。如果系统上没有 GPU 加速,请设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/fiction.live-Kimiko-V2-70B-GGUF", model_file="fiction.live-Kimiko-V2-70B.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
与 LangChain 一起使用
以下是使用 llama-cpp-python 或 ctransformers 与 LangChain 的指南:
📚 详细文档
关于 GGUF
GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式,它是 GGML 的替代品,而 llama.cpp 不再支持 GGML。GGUF 相对于 GGML 有许多优势,例如更好的分词功能和对特殊标记的支持,还支持元数据,并且设计为可扩展的。
已知支持 GGUF 的客户端和库列表如下:
- llama.cpp:GGUF 的源项目,提供 CLI 和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持跨所有平台和 GPU 架构的 GPU 加速,特别适合讲故事。
- LM Studio:适用于 Windows 和 macOS(Silicon)的易于使用且功能强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
- llama-cpp-python:一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个专注于性能的 Rust ML 框架,包括 GPU 支持和易于使用。
可用的仓库
- 用于 GPU 推理的 AWQ 模型
- 用于 GPU 推理的 GPTQ 模型,具有多个量化参数选项
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- 用于 GPU 推理和进一步转换的未量化 fp16 模型(pytorch 格式)
- nRuaif 的原始 LoRA 适配器,可合并到基础模型上
提示模板:Vicuna
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:
提供的文件
名称 | 量化方法 | 位数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
fiction.live-Kimiko-V2-70B.Q2_K.gguf | Q2_K | 2 | 29.28 GB | 31.78 GB | 最小,但质量损失显著 - 不建议用于大多数用途 |
fiction.live-Kimiko-V2-70B.Q3_K_S.gguf | Q3_K_S | 3 | 29.92 GB | 32.42 GB | 非常小,但质量损失高 |
fiction.live-Kimiko-V2-70B.Q3_K_M.gguf | Q3_K_M | 3 | 33.19 GB | 35.69 GB | 非常小,但质量损失高 |
fiction.live-Kimiko-V2-70B.Q3_K_L.gguf | Q3_K_L | 3 | 36.15 GB | 38.65 GB | 小,但质量损失较大 |
fiction.live-Kimiko-V2-70B.Q4_0.gguf | Q4_0 | 4 | 38.87 GB | 41.37 GB | 旧版;小,但质量损失非常高 - 建议使用 Q3_K_M |
fiction.live-Kimiko-V2-70B.Q4_K_S.gguf | Q4_K_S | 4 | 39.07 GB | 41.57 GB | 小,但质量损失更大 |
fiction.live-Kimiko-V2-70B.Q4_K_M.gguf | Q4_K_M | 4 | 41.42 GB | 43.92 GB | 中等,质量平衡 - 推荐 |
fiction.live-Kimiko-V2-70B.Q5_0.gguf | Q5_0 | 5 | 47.46 GB | 49.96 GB | 旧版;中等,质量平衡 - 建议使用 Q4_K_M |
fiction.live-Kimiko-V2-70B.Q5_K_S.gguf | Q5_K_S | 5 | 47.46 GB | 49.96 GB | 大,质量损失低 - 推荐 |
fiction.live-Kimiko-V2-70B.Q5_K_M.gguf | Q5_K_M | 5 | 48.75 GB | 51.25 GB | 大,质量损失非常低 - 推荐 |
fiction.live-Kimiko-V2-70B.Q6_K.gguf | Q6_K | 6 | 56.59 GB | 59.09 GB | 非常大,质量损失极低 |
fiction.live-Kimiko-V2-70B.Q8_0.gguf | Q8_0 | 8 | 73.29 GB | 75.79 GB | 非常大,质量损失极低 - 不建议 |
注意:上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU,这将减少 RAM 使用并使用 VRAM 代替。
Q6_K 和 Q8_0 文件是拆分的,需要合并
注意:HF 不支持上传大于 50GB 的文件。因此,我已将 Q6_K 和 Q8_0 文件作为拆分文件上传。
Q6_K
请下载:
fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a
fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b
Q8_0
请下载:
fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a
fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b
要合并文件,请执行以下操作:
Linux 和 macOS:
cat fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-* > fiction.live-Kimiko-V2-70B.Q6_K.gguf && rm fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-*
cat fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-* > fiction.live-Kimiko-V2-70B.Q8_0.gguf && rm fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-*
Windows 命令行:
COPY /B fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a + fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b fiction.live-Kimiko-V2-70B.Q6_K.gguf
del fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b
COPY /B fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a + fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b fiction.live-Kimiko-V2-70B.Q8_0.gguf
del fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b
🔧 技术细节
量化方法说明
新的可用方法如下:
- GGML_TYPE_Q2_K - “类型 1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块尺度和最小值用 4 位量化。最终每个权重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K - “类型 0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。尺度用 6 位量化。最终使用 3.4375 bpw。
- GGML_TYPE_Q4_K - “类型 1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。尺度和最小值用 6 位量化。最终使用 4.5 bpw。
- GGML_TYPE_Q5_K - “类型 1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构,结果为 5.5 bpw。
- GGML_TYPE_Q6_K - “类型 0” 6 位量化。超级块有 16 个块,每个块有 16 个权重。尺度用 8 位量化。最终使用 6.5625 bpw。
请参考下面的“提供的文件”表,了解哪些文件使用了哪些方法以及如何使用。
📄 许可证
源模型的创建者将其许可证列为 creativeml-openrail-m
,因此本次量化使用了相同的许可证。
由于此模型基于 Llama 2,它也受 Meta Llama 2 许可证条款的约束,并且还包含了该许可证文件。因此,应认为该模型声称同时受这两种许可证的约束。我已联系 Hugging Face 以澄清双重许可问题,但他们尚未有官方立场。如果情况发生变化,或者 Meta 对此情况提供任何反馈,我将相应更新此部分。
在此期间,有关许可证的任何问题,特别是这两种许可证如何相互作用的问题,应直接咨询原始模型仓库:nRuaif 的 Fiction Live Kimiko V2 70B。
其他信息
Discord
如需进一步支持,以及讨论这些模型和一般 AI 相关内容,请加入我们的 TheBloke AI 的 Discord 服务器。
感谢与贡献方式
感谢 chirper.ai 团队!感谢来自 gpus.llm-utils.org 的 Clay!
很多人问是否可以贡献。我喜欢提供模型并帮助他人,也希望能够花更多时间做这些事情,以及开展新的项目,如微调/训练。
如果您有能力并愿意贡献,我将非常感激,这将有助于我继续提供更多模型,并开始新的 AI 项目。
捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐赠者!再次感谢 a16z 的慷慨资助。



