Fiction Live Kimiko V2 70B开源大模型 - 多量化格式适配不同推理场景

首页

Fiction.live Kimiko V2 70B GGUF

由 TheBloke 开发

Fiction Live Kimiko V2 70B 是一个基于 Llama 2 架构的大型语言模型，提供多种量化格式，适用于不同推理场景。

大型语言模型

Transformers

英语开源协议:Openrail #大模型推理 #多量化支持 #长文本处理

下载量 868

发布时间 : 8/30/2023

模型简介

该模型提供了 GGUF 格式文件，支持多种客户端和库，方便用户在不同场景下进行推理。

模型特点

多种量化格式

支持 AWQ、GPTQ、GGUF 等多种格式的模型文件，满足不同推理需求。

广泛兼容性

与多个客户端和库兼容，包括 llama.cpp、text-generation-webui、KoboldCpp 等。

多种量化方法

支持 Q2_K、Q3_K、Q4_K 等多种量化方法，可根据需求选择不同的量化级别。

模型能力

文本生成

对话系统

故事创作

使用案例

对话系统

聊天助手

用于构建智能聊天助手，提供详细、礼貌的回答。

内容创作

故事生成

用于生成虚构故事或小说内容。

🚀 Fiction Live Kimiko V2 70B - GGUF

本项目提供了 Fiction Live Kimiko V2 70B 模型的 GGUF 格式文件，可用于不同场景的推理，支持多种客户端和库，方便用户使用。

🚀 快速开始

确保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更新的提交版本。以下是一个示例命令：

./main -ngl 32 -m fiction.live-Kimiko-V2-70B.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

将 -ngl 32 改为要卸载到 GPU 的层数。如果没有 GPU 加速，请删除该参数。
将 -c 4096 改为所需的序列长度。对于扩展序列模型（如 8K、16K、32K），必要的 RoPE 缩放参数会从 GGUF 文件中读取，并由 llama.cpp 自动设置。
如果想进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

✨ 主要特性

支持多种格式：提供了 AWQ、GPTQ、GGUF 等多种格式的模型文件，可满足不同的推理需求。
广泛的兼容性：与多个客户端和库兼容，包括 llama.cpp、text-generation-webui、KoboldCpp 等。
多种量化方法：支持 Q2_K、Q3_K、Q4_K 等多种量化方法，可根据需求选择不同的量化级别。

📦 安装指南

下载 GGUF 文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动下载模型，并提供可用模型列表供选择。
在 text-generation-webui 中下载：在“Download Model”下输入模型仓库 TheBloke/fiction.live-Kimiko-V2-70B-GGUF，并在下方输入要下载的具体文件名，如 fiction.live-Kimiko-V2-70B.q4_K_M.gguf，然后点击“Download”。
命令行下载：推荐使用 huggingface-hub Python 库，先安装：

pip3 install huggingface-hub>=0.17.1

然后使用以下命令下载单个模型文件到当前目录：

huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF fiction.live-Kimiko-V2-70B.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用示例

在 `text-generation-webui` 中运行

具体说明请参考 text-generation-webui/docs/llama.cpp.md。

从 Python 代码运行

可以使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。

使用 ctransformers 从 Python 加载此模型

首先安装包：

# 无 GPU 加速的基础 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或为 macOS 系统使用 Metal GPU 加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

简单的示例代码来加载其中一个 GGUF 模型：

from ctransformers import AutoModelForCausalLM

# 将 gpu_layers 设置为要卸载到 GPU 的层数。如果系统上没有 GPU 加速，请设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/fiction.live-Kimiko-V2-70B-GGUF", model_file="fiction.live-Kimiko-V2-70B.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

与 LangChain 一起使用

以下是使用 llama-cpp-python 或 ctransformers 与 LangChain 的指南：

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，它是 GGML 的替代品，而 llama.cpp 不再支持 GGML。GGUF 相对于 GGML 有许多优势，例如更好的分词功能和对特殊标记的支持，还支持元数据，并且设计为可扩展的。

已知支持 GGUF 的客户端和库列表如下：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持跨所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且功能强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持和易于使用。

可用的仓库

提示模板：Vicuna

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

提供的文件

名称	量化方法	位数	大小	所需最大 RAM	使用场景
fiction.live-Kimiko-V2-70B.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最小，但质量损失显著 - 不建议用于大多数用途
fiction.live-Kimiko-V2-70B.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常小，但质量损失高
fiction.live-Kimiko-V2-70B.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常小，但质量损失高
fiction.live-Kimiko-V2-70B.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小，但质量损失较大
fiction.live-Kimiko-V2-70B.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	旧版；小，但质量损失非常高 - 建议使用 Q3_K_M
fiction.live-Kimiko-V2-70B.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小，但质量损失更大
fiction.live-Kimiko-V2-70B.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中等，质量平衡 - 推荐
fiction.live-Kimiko-V2-70B.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	旧版；中等，质量平衡 - 建议使用 Q4_K_M
fiction.live-Kimiko-V2-70B.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大，质量损失低 - 推荐
fiction.live-Kimiko-V2-70B.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大，质量损失非常低 - 推荐
fiction.live-Kimiko-V2-70B.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常大，质量损失极低
fiction.live-Kimiko-V2-70B.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常大，质量损失极低 - 不建议

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，这将减少 RAM 使用并使用 VRAM 代替。

Q6_K 和 Q8_0 文件是拆分的，需要合并

注意：HF 不支持上传大于 50GB 的文件。因此，我已将 Q6_K 和 Q8_0 文件作为拆分文件上传。

Q6_K

请下载：

fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a
fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

Q8_0

请下载：

fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a
fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

要合并文件，请执行以下操作：

Linux 和 macOS：

cat fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-* > fiction.live-Kimiko-V2-70B.Q6_K.gguf && rm fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-*
cat fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-* > fiction.live-Kimiko-V2-70B.Q8_0.gguf && rm fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-*

Windows 命令行：

COPY /B fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a + fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b fiction.live-Kimiko-V2-70B.Q6_K.gguf
del fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

COPY /B fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a + fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b fiction.live-Kimiko-V2-70B.Q8_0.gguf
del fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

🔧 技术细节

量化方法说明

新的可用方法如下：

GGML_TYPE_Q2_K - “类型 1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块尺度和最小值用 4 位量化。最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “类型 0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。尺度用 6 位量化。最终使用 3.4375 bpw。
GGML_TYPE_Q4_K - “类型 1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。尺度和最小值用 6 位量化。最终使用 4.5 bpw。
GGML_TYPE_Q5_K - “类型 1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构，结果为 5.5 bpw。
GGML_TYPE_Q6_K - “类型 0” 6 位量化。超级块有 16 个块，每个块有 16 个权重。尺度用 8 位量化。最终使用 6.5625 bpw。

请参考下面的“提供的文件”表，了解哪些文件使用了哪些方法以及如何使用。

📄 许可证

源模型的创建者将其许可证列为 creativeml-openrail-m，因此本次量化使用了相同的许可证。

由于此模型基于 Llama 2，它也受 Meta Llama 2 许可证条款的约束，并且还包含了该许可证文件。因此，应认为该模型声称同时受这两种许可证的约束。我已联系 Hugging Face 以澄清双重许可问题，但他们尚未有官方立场。如果情况发生变化，或者 Meta 对此情况提供任何反馈，我将相应更新此部分。

在此期间，有关许可证的任何问题，特别是这两种许可证如何相互作用的问题，应直接咨询原始模型仓库：nRuaif 的 Fiction Live Kimiko V2 70B。

其他信息

Discord

如需进一步支持，以及讨论这些模型和一般 AI 相关内容，请加入我们的 TheBloke AI 的 Discord 服务器。

感谢与贡献方式

感谢 chirper.ai 团队！感谢来自 gpus.llm-utils.org 的 Clay！

很多人问是否可以贡献。我喜欢提供模型并帮助他人，也希望能够花更多时间做这些事情，以及开展新的项目，如微调/训练。

如果您有能力并愿意贡献，我将非常感激，这将有助于我继续提供更多模型，并开始新的 AI 项目。

捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

感谢所有慷慨的赞助者和捐赠者！再次感谢 a16z 的慷慨资助。