Rose-20B-GGUF開源大語言模型 - 免費部署實現高質量文本生成

首頁

Rose 20B GGUF

由TheBloke開發

Rose 20B 是一個基於LLaMA架構的20B參數大型語言模型，採用Alpaca風格的指令模板，適用於文本生成任務。

大型語言模型英語#20B參數規模 #指令跟隨生成 #多量化版本

下載量 612

發布時間 : 11/24/2023

模型概述

Rose 20B是由Tav開發的20B參數大型語言模型，基於LLaMA-2架構，支持英語文本生成。模型採用Alpaca風格的指令模板，適用於各種文本生成任務。

模型特點

大參數量

20B參數規模，提供強大的語言理解和生成能力

Alpaca風格指令模板

採用標準化的Alpaca指令模板，便於指令跟隨和任務完成

多重量化版本

提供從2位到8位的多種量化版本，適應不同硬件需求

模型能力

文本生成

指令跟隨

任務完成

使用案例

文本生成

內容創作

生成文章、故事、詩歌等創意內容

問答系統

回答用戶提出的各種問題

任務自動化

指令執行

根據用戶指令完成特定任務

🚀 Rose 20B - GGUF

本項目提供了 Tav的Rose 20B 模型的GGUF格式文件。這些文件是使用 Massed Compute 提供的硬件進行量化處理的。

🚀 快速開始

本倉庫包含了Tav的Rose 20B模型的GGUF格式文件，下面將為你介紹該模型的相關信息，包括格式介紹、可用倉庫、提示模板、兼容性、提供的文件、下載方式、運行示例以及使用幫助等內容。

✨ 主要特性

多格式支持：提供了多種量化格式的文件，包括不同比特數的GGUF文件，以及AWQ、GPTQ等格式，可滿足不同場景的需求。
廣泛兼容性：與多種客戶端和庫兼容，如llama.cpp、text-generation-webui、KoboldCpp等，方便用戶使用。
易於下載：支持多種下載方式，可通過客戶端自動下載，也可使用命令行進行手動下載。

📦 安裝指南

下載GGUF文件

手動下載注意事項：通常不需要克隆整個倉庫，因為提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件即可。
自動下載客戶端：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端會自動為你下載模型，並提供可用模型列表供你選擇。
在 text-generation-webui 中下載：在“Download Model”下，輸入模型倉庫地址 TheBloke/Rose-20B-GGUF，並在下方輸入要下載的具體文件名，如 rose-20b.Q4_K_M.gguf，然後點擊“Download”。
命令行下載：推薦使用 huggingface-hub Python 庫。

pip3 install huggingface-hub

然後可以使用以下命令將單個模型文件高速下載到當前目錄：

huggingface-cli download TheBloke/Rose-20B-GGUF rose-20b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

你還可以使用通配符一次性下載多個文件：

huggingface-cli download TheBloke/Rose-20B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

要了解更多關於 huggingface-cli 下載的文檔，請參閱：HF -> Hub Python Library -> Download files -> Download from the CLI。為了在高速連接（1Gbit/s 或更高）上加速下載，請安裝 hf_transfer：

pip3 install hf_transfer

並將環境變量 HF_HUB_ENABLE_HF_TRANSFER 設置為 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Rose-20B-GGUF rose-20b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用戶可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1 來設置環境變量。

💻 使用示例

在 `llama.cpp` 中運行示例

確保你使用的是 d0cee0d 或更高版本的 llama.cpp。

./main -ngl 32 -m rose-20b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"

-ngl 32：將其更改為要卸載到GPU的層數。如果你的系統沒有GPU加速，請移除該參數。
-c 4096：將其更改為所需的序列長度。對於擴展序列模型（如8K、16K、32K），必要的RoPE縮放參數將從GGUF文件中讀取，並由llama.cpp自動設置。如果你想進行聊天式對話，請將 -p <PROMPT> 參數替換為 -i -ins。有關其他參數及其使用方法，請參閱 llama.cpp文檔。

在 `text-generation-webui` 中運行

更多說明可在 text-generation-webui 文檔中找到，地址為：text-generation-webui/docs/04 ‐ Model Tab.md。

在Python代碼中使用

你可以使用 llama-cpp-python 或 ctransformers 庫從Python代碼中使用GGUF模型。

使用 `ctransformers` 加載模型

首先根據你的系統運行以下命令之一來安裝包：

# 無GPU加速的基礎ctransformers
pip install ctransformers
# 帶有CUDA GPU加速
pip install ctransformers[cuda]
# 帶有AMD ROCm GPU加速（僅適用於Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 帶有Metal GPU加速（僅適用於macOS系統）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

以下是一個簡單的 ctransformers 示例代碼：

from ctransformers import AutoModelForCausalLM

# 將gpu_layers設置為要卸載到GPU的層數。如果你的系統沒有GPU加速，請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Rose-20B-GGUF", model_file="rose-20b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

📚 詳細文檔

關於GGUF

GGUF是llama.cpp團隊在2023年8月21日引入的一種新格式，它取代了不再被llama.cpp支持的GGML格式。以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供了CLI和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：一個功能齊全的Web UI，支持所有平臺和GPU架構的GPU加速，特別適合講故事。
LM Studio：一個易於使用且功能強大的本地GUI，適用於Windows和macOS（Silicon），支持GPU加速。
LoLLMS Web UI：一個很棒的Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，方便模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天GUI，適用於Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一個Python庫，支持GPU加速、LangChain和OpenAI兼容的AI服務器。
llama-cpp-python：一個Python庫，支持GPU加速、LangChain和OpenAI兼容的API服務器。
candle：一個Rust ML框架，注重性能，包括GPU支持，且易於使用。

可用倉庫

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

兼容性

這些量化的GGUFv2文件與2023年8月27日及以後的llama.cpp兼容，對應提交版本為 d0cee0d。它們也與許多第三方UI和庫兼容，請參閱本README頂部的列表。

量化方法說明

點擊查看詳細信息

新的可用方法如下： - GGML_TYPE_Q2_K：“type-1” 2位量化，超級塊包含16個塊，每個塊有16個權重。塊的比例和最小值使用4位量化，最終每個權重有效使用2.5625位（bpw）。 - GGML_TYPE_Q3_K：“type-0” 3位量化，超級塊包含16個塊，每個塊有16個權重。比例使用6位量化，最終使用3.4375 bpw。 - GGML_TYPE_Q4_K：“type-1” 4位量化，超級塊包含8個塊，每個塊有32個權重。比例和最小值使用6位量化，最終使用4.5 bpw。 - GGML_TYPE_Q5_K：“type-1” 5位量化，與GGML_TYPE_Q4_K具有相同的超級塊結構，最終使用5.5 bpw。 - GGML_TYPE_Q6_K：“type-0” 6位量化，超級塊包含16個塊，每個塊有16個權重。比例使用8位量化，最終使用6.5625 bpw。請參考下面的“提供的文件”表，查看哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	比特數	大小	所需最大RAM	使用場景
rose-20b.Q2_K.gguf	Q2_K	2	8.31 GB	10.81 GB	最小，但質量損失顯著，不建議用於大多數場景
rose-20b.Q3_K_S.gguf	Q3_K_S	3	8.66 GB	11.16 GB	非常小，但質量損失高
rose-20b.Q3_K_M.gguf	Q3_K_M	3	9.70 GB	12.20 GB	非常小，但質量損失高
rose-20b.Q3_K_L.gguf	Q3_K_L	3	10.63 GB	13.13 GB	小，但質量損失較大
rose-20b.Q4_0.gguf	Q4_0	4	11.29 GB	13.79 GB	舊版本；小，但質量損失非常高，建議使用Q3_K_M
rose-20b.Q4_K_S.gguf	Q4_K_S	4	11.34 GB	13.84 GB	小，但質量損失較大
rose-20b.Q4_K_M.gguf	Q4_K_M	4	12.04 GB	14.54 GB	中等，質量平衡，推薦使用
rose-20b.Q5_0.gguf	Q5_0	5	13.77 GB	16.27 GB	舊版本；中等，質量平衡，建議使用Q4_K_M
rose-20b.Q5_K_S.gguf	Q5_K_S	5	13.77 GB	16.27 GB	大，質量損失低，推薦使用
rose-20b.Q5_K_M.gguf	Q5_K_M	5	14.16 GB	16.66 GB	大，質量損失非常低，推薦使用
rose-20b.Q6_K.gguf	Q6_K	6	16.40 GB	18.90 GB	非常大，質量損失極低
rose-20b.Q8_0.gguf	Q8_0	8	21.25 GB	23.75 GB	非常大，質量損失極低，但不建議使用

注意：上述RAM數字假設沒有進行GPU卸載。如果將層卸載到GPU，這將減少RAM使用並使用VRAM。

如何使用LangChain

以下是使用 llama-cpp-python 和 ctransformers 與LangChain的指南：

🔧 技術細節

模型配方

slices:
  - sources:
    - model: Thorns-13B
      layer_range: [0, 16]
  - sources:
    - model: Noromaid-13B
      layer_range: [8, 24]
  - sources:
    - model: Thorns-13B
      layer_range: [17, 32]
  - sources:
    - model: Noromaid-13B
      layer_range: [25, 40]
merge_method: passthrough
dtype: float16

再次感謝 Undi 提供的配方。

📄 許可證

本模型使用的許可證為 llama2。

其他信息

Discord

如需進一步支持，以及討論這些模型和人工智能相關內容，請加入我們的 TheBloke AI的Discord服務器。

感謝與貢獻

感謝 chirper.ai 團隊！感謝來自 gpus.llm-utils.org 的Clay！很多人詢問是否可以進行貢獻。我喜歡提供模型並幫助他人，也希望能有更多時間做這些事情，同時開展新的項目，如微調/訓練。如果你有能力且願意貢獻，我將非常感激，這將幫助我繼續提供更多模型，並開展新的人工智能項目。捐贈者將在所有AI/LLM/模型問題和請求上獲得優先支持，訪問私人Discord房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon特別提及：Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius

感謝所有慷慨的贊助者和捐贈者！再次感謝a16z的慷慨資助。

原始模型卡片信息

模型創建者：Tav
原始模型：Rose 20B
模型詳情：該模型是 Thorns-13B 和 Noromaid-13-v0.1.1 的混合模型。這個配方由Trappu提出，層分佈配方由Undi製作。該模型非常適合角色扮演場景，因其像“帶刺的女僕”而被命名為“Rose”。
存在理由：有潛力作為微調實驗的基礎模型，用於創建Pygmalion-20B；也可用於與其他20B混合模型進行實驗。
模型接收情況：該模型在PygmalionAI Discord社區的少數成員中進行了測試，絕大多數人非常喜歡該模型，只有少數人給予及格評價。考慮到社區對角色扮演模型的高標準，這個積極的反饋令人驚喜。
聯繫信息：如果你想談論該模型，請在Discord上給tav (tav) 發送消息，我隨時歡迎評論。