Fiction Live Kimiko V2 70B開源大模型 - 多量化格式適配不同推理場景

首頁

Fiction.live Kimiko V2 70B GGUF

由TheBloke開發

Fiction Live Kimiko V2 70B 是一個基於 Llama 2 架構的大型語言模型，提供多種量化格式，適用於不同推理場景。

大型語言模型

Transformers

英語開源協議:Openrail #大模型推理 #多量化支持 #長文本處理

下載量 868

發布時間 : 8/30/2023

模型概述

該模型提供了 GGUF 格式文件，支持多種客戶端和庫，方便用戶在不同場景下進行推理。

模型特點

多種量化格式

支持 AWQ、GPTQ、GGUF 等多種格式的模型文件，滿足不同推理需求。

廣泛兼容性

與多個客戶端和庫兼容，包括 llama.cpp、text-generation-webui、KoboldCpp 等。

多種量化方法

支持 Q2_K、Q3_K、Q4_K 等多種量化方法，可根據需求選擇不同的量化級別。

模型能力

文本生成

對話系統

故事創作

使用案例

對話系統

聊天助手

用於構建智能聊天助手，提供詳細、禮貌的回答。

內容創作

故事生成

用於生成虛構故事或小說內容。

🚀 Fiction Live Kimiko V2 70B - GGUF

本項目提供了 Fiction Live Kimiko V2 70B 模型的 GGUF 格式文件，可用於不同場景的推理，支持多種客戶端和庫，方便用戶使用。

🚀 快速開始

確保使用的 llama.cpp 是 d0cee0d36d5be95a0d9088b674dbb27354107221 或更新的提交版本。以下是一個示例命令：

./main -ngl 32 -m fiction.live-Kimiko-V2-70B.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

將 -ngl 32 改為要卸載到 GPU 的層數。如果沒有 GPU 加速，請刪除該參數。
將 -c 4096 改為所需的序列長度。對於擴展序列模型（如 8K、16K、32K），必要的 RoPE 縮放參數會從 GGUF 文件中讀取，並由 llama.cpp 自動設置。
如果想進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。

✨ 主要特性

支持多種格式：提供了 AWQ、GPTQ、GGUF 等多種格式的模型文件，可滿足不同的推理需求。
廣泛的兼容性：與多個客戶端和庫兼容，包括 llama.cpp、text-generation-webui、KoboldCpp 等。
多種量化方法：支持 Q2_K、Q3_K、Q4_K 等多種量化方法，可根據需求選擇不同的量化級別。

📦 安裝指南

下載 GGUF 文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動下載模型，並提供可用模型列表供選擇。
在 text-generation-webui 中下載：在“Download Model”下輸入模型倉庫 TheBloke/fiction.live-Kimiko-V2-70B-GGUF，並在下方輸入要下載的具體文件名，如 fiction.live-Kimiko-V2-70B.q4_K_M.gguf，然後點擊“Download”。
命令行下載：推薦使用 huggingface-hub Python 庫，先安裝：

pip3 install huggingface-hub>=0.17.1

然後使用以下命令下載單個模型文件到當前目錄：

huggingface-cli download TheBloke/fiction.live-Kimiko-V2-70B-GGUF fiction.live-Kimiko-V2-70B.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用示例

在 `text-generation-webui` 中運行

具體說明請參考 text-generation-webui/docs/llama.cpp.md。

從 Python 代碼運行

可以使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。

使用 ctransformers 從 Python 加載此模型

首先安裝包：

# 無 GPU 加速的基礎 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或為 macOS 系統使用 Metal GPU 加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

簡單的示例代碼來加載其中一個 GGUF 模型：

from ctransformers import AutoModelForCausalLM

# 將 gpu_layers 設置為要卸載到 GPU 的層數。如果系統上沒有 GPU 加速，請設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/fiction.live-Kimiko-V2-70B-GGUF", model_file="fiction.live-Kimiko-V2-70B.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

與 LangChain 一起使用

以下是使用 llama-cpp-python 或 ctransformers 與 LangChain 的指南：

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式，它是 GGML 的替代品，而 llama.cpp 不再支持 GGML。GGUF 相對於 GGML 有許多優勢，例如更好的分詞功能和對特殊標記的支持，還支持元數據，並且設計為可擴展的。

已知支持 GGUF 的客戶端和庫列表如下：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持和易於使用。

可用的倉庫

提示模板：Vicuna

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

提供的文件

名稱	量化方法	位數	大小	所需最大 RAM	使用場景
fiction.live-Kimiko-V2-70B.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最小，但質量損失顯著 - 不建議用於大多數用途
fiction.live-Kimiko-V2-70B.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常小，但質量損失高
fiction.live-Kimiko-V2-70B.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常小，但質量損失高
fiction.live-Kimiko-V2-70B.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小，但質量損失較大
fiction.live-Kimiko-V2-70B.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	舊版；小，但質量損失非常高 - 建議使用 Q3_K_M
fiction.live-Kimiko-V2-70B.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小，但質量損失更大
fiction.live-Kimiko-V2-70B.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中等，質量平衡 - 推薦
fiction.live-Kimiko-V2-70B.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	舊版；中等，質量平衡 - 建議使用 Q4_K_M
fiction.live-Kimiko-V2-70B.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大，質量損失低 - 推薦
fiction.live-Kimiko-V2-70B.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大，質量損失非常低 - 推薦
fiction.live-Kimiko-V2-70B.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常大，質量損失極低
fiction.live-Kimiko-V2-70B.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常大，質量損失極低 - 不建議

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，這將減少 RAM 使用並使用 VRAM 代替。

Q6_K 和 Q8_0 文件是拆分的，需要合併

注意：HF 不支持上傳大於 50GB 的文件。因此，我已將 Q6_K 和 Q8_0 文件作為拆分文件上傳。

Q6_K

請下載：

fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a
fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

Q8_0

請下載：

fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a
fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

要合併文件，請執行以下操作：

Linux 和 macOS：

cat fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-* > fiction.live-Kimiko-V2-70B.Q6_K.gguf && rm fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-*
cat fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-* > fiction.live-Kimiko-V2-70B.Q8_0.gguf && rm fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-*

Windows 命令行：

COPY /B fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a + fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b fiction.live-Kimiko-V2-70B.Q6_K.gguf
del fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-a fiction.live-Kimiko-V2-70B.Q6_K.gguf-split-b

COPY /B fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a + fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b fiction.live-Kimiko-V2-70B.Q8_0.gguf
del fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-a fiction.live-Kimiko-V2-70B.Q8_0.gguf-split-b

🔧 技術細節

量化方法說明

新的可用方法如下：

GGML_TYPE_Q2_K - “類型 1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊尺度和最小值用 4 位量化。最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “類型 0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。尺度用 6 位量化。最終使用 3.4375 bpw。
GGML_TYPE_Q4_K - “類型 1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。尺度和最小值用 6 位量化。最終使用 4.5 bpw。
GGML_TYPE_Q5_K - “類型 1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構，結果為 5.5 bpw。
GGML_TYPE_Q6_K - “類型 0” 6 位量化。超級塊有 16 個塊，每個塊有 16 個權重。尺度用 8 位量化。最終使用 6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法以及如何使用。

📄 許可證

源模型的創建者將其許可證列為 creativeml-openrail-m，因此本次量化使用了相同的許可證。

由於此模型基於 Llama 2，它也受 Meta Llama 2 許可證條款的約束，並且還包含了該許可證文件。因此，應認為該模型聲稱同時受這兩種許可證的約束。我已聯繫 Hugging Face 以澄清雙重許可問題，但他們尚未有官方立場。如果情況發生變化，或者 Meta 對此情況提供任何反饋，我將相應更新此部分。

在此期間，有關許可證的任何問題，特別是這兩種許可證如何相互作用的問題，應直接諮詢原始模型倉庫：nRuaif 的 Fiction Live Kimiko V2 70B。

其他信息

Discord

如需進一步支持，以及討論這些模型和一般 AI 相關內容，請加入我們的 TheBloke AI 的 Discord 服務器。

感謝與貢獻方式

感謝 chirper.ai 團隊！感謝來自 gpus.llm-utils.org 的 Clay！

很多人問是否可以貢獻。我喜歡提供模型並幫助他人，也希望能夠花更多時間做這些事情，以及開展新的項目，如微調/訓練。

如果您有能力並願意貢獻，我將非常感激，這將有助於我繼續提供更多模型，並開始新的 AI 項目。

捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

感謝所有慷慨的贊助者和捐贈者！再次感謝 a16z 的慷慨資助。