Manticore 13B Chat Pyg開源聊天模型 - 適配多硬件多客戶端免費可用

首頁

Manticore 13b Chat Pyg GGUF

由TheBloke開發

Manticore 13B Chat Pyg是基於Llama 13B模型微調的聊天模型，支持多種客戶端和庫，提供多種量化方法以適應不同硬件條件。

大型語言模型

Transformers

英語開源協議:其他 #角色扮演對話 #多輪問答優化 #低資源推理

下載量 327

發布時間 : 9/20/2023

模型概述

該模型是一個13B參數的聊天模型，基於特定數據集訓練，支持文本生成任務，兼容多種推理工具和庫。

模型特點

GGUF格式支持

採用最新的GGUF格式，替代不再受支持的GGML格式，提供更好的兼容性和性能。

多客戶端兼容

與llama.cpp、text-generation-webui、KoboldCpp等多種客戶端和庫兼容，滿足不同用戶需求。

多種量化方法

提供多種量化方法，可根據不同的使用場景和硬件條件選擇合適的量化文件，平衡模型大小和質量。

模型能力

文本生成

聊天對話

指令增強

使用案例

聊天機器人

智能助手

用於構建智能助手，提供詳細、禮貌的回答。

教育

解題輔助

用於解答數學和科學問題，提供詳細的解釋。

🚀 Manticore 13B Chat Pyg

本項目提供了Manticore 13B Chat Pyg模型的GGUF格式文件，方便用戶進行文本生成相關的推理任務。該模型基於特定數據集訓練，在多種客戶端和庫中都有良好的支持。

🚀 快速開始

本倉庫包含 Open Access AI Collective 的 Manticore 13B Chat Pyg 模型的 GGUF 格式文件。

✨ 主要特性

新格式支持：採用 llama.cpp 團隊於 2023 年 8 月 21 日推出的 GGUF 新格式，替代不再受支持的 GGML 格式。
多客戶端兼容：與眾多客戶端和庫兼容，如 llama.cpp、text-generation-webui、KoboldCpp 等，滿足不同用戶的使用需求。
多種量化方法：提供多種量化方法，可根據不同的使用場景和硬件條件選擇合適的量化文件，平衡模型大小和質量。

📦 安裝指南

下載 GGUF 文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動為你下載模型，並提供可用模型列表供選擇。
text-generation-webui 中下載：在 Download Model 下，輸入模型倉庫地址 TheBloke/manticore-13b-chat-pyg-GGUF，以及具體要下載的文件名，如 manticore-13b-chat-pyg.Q4_K_M.gguf，然後點擊 Download。

命令行下載：推薦使用 huggingface-hub Python 庫進行下載。

pip3 install huggingface-hub

下載單個模型文件到當前目錄，可使用如下命令：

huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要同時下載多個文件，可使用模式匹配：

huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

若要加速高速連接（1Gbit/s 或更高）下的下載，可安裝 hf_transfer：

pip3 install hf_transfer

並設置環境變量 HF_HUB_ENABLE_HF_TRANSFER 為 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用戶可在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1 設置環境變量。

💻 使用示例

llama.cpp 命令示例

確保使用的是 d0cee0d 或更新版本的 llama.cpp。

./main -ngl 32 -m manticore-13b-chat-pyg.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32：將其改為要卸載到 GPU 的層數，若沒有 GPU 加速可移除該參數。
-c 2048：改為所需的序列長度，對於擴展序列模型（如 8K、16K、32K），必要的 RoPE 縮放參數會從 GGUF 文件中讀取並由 llama.cpp 自動設置。
若要進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。其他參數及使用方法請參考 llama.cpp 文檔。

在 text-generation-webui 中運行

更多說明請參考 text-generation-webui/docs/llama.cpp.md。

從 Python 代碼運行

可使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。

使用 ctransformers 加載模型

首先根據系統運行以下命令之一安裝包：

# 無 GPU 加速的基礎 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速（僅適用於 Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 macOS 系統的 Metal GPU 加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡單的 ctransformers 示例代碼：

from ctransformers import AutoModelForCausalLM

# 將 gpu_layers 設置為要卸載到 GPU 的層數，若系統無 GPU 加速則設置為 0
llm = AutoModelForCausalLM.from_pretrained("TheBloke/manticore-13b-chat-pyg-GGUF", model_file="manticore-13b-chat-pyg.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

與 LangChain 結合使用

以下是使用 llama-cpp-python 和 ctransformers 與 LangChain 結合的指南：

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日推出的新格式，用於替代不再受 llama.cpp 支持的 GGML 格式。

以下是已知支持 GGUF 的客戶端和庫的不完全列表：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，尤其適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持，且易於使用。

可用倉庫

提示模板

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

兼容性

這些量化的 GGUFv2 文件與 2023 年 8 月 27 日及以後的 llama.cpp 版本兼容，對應提交為 d0cee0d。

它們也與許多第三方 UI 和庫兼容 - 請參閱本 README 頂部的列表。

量化方法解釋

點擊查看詳情

新的可用方法如下：

GGML_TYPE_Q2_K - “類型 1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊尺度和最小值用 4 位量化，最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “類型 0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。尺度用 6 位量化，最終使用 3.4375 bpw。
GGML_TYPE_Q4_K - “類型 1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。尺度和最小值用 6 位量化，最終使用 4.5 bpw。
GGML_TYPE_Q5_K - “類型 1” 5 位量化，與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K - “類型 0” 6 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。尺度用 8 位量化，最終使用 6.5625 bpw。

請參考下面的提供文件表，查看哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	位數	大小	所需最大 RAM	使用場景
manticore-13b-chat-pyg.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但有顯著質量損失，不推薦用於大多數情況
manticore-13b-chat-pyg.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但有較高質量損失
manticore-13b-chat-pyg.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但有較高質量損失
manticore-13b-chat-pyg.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但有較大質量損失
manticore-13b-chat-pyg.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	舊版；小，但有非常高的質量損失，建議使用 Q3_K_M
manticore-13b-chat-pyg.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但有較大質量損失
manticore-13b-chat-pyg.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，質量平衡，推薦使用
manticore-13b-chat-pyg.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	舊版；中等，質量平衡，建議使用 Q4_K_M
manticore-13b-chat-pyg.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，質量損失低，推薦使用
manticore-13b-chat-pyg.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，質量損失非常低，推薦使用
manticore-13b-chat-pyg.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，質量損失極低
manticore-13b-chat-pyg.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，質量損失極低，不推薦使用

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，這將減少 RAM 使用並使用 VRAM 代替。

🔧 技術細節

模型訓練

Manticore 13B Chat 是基於 Llama 13B 模型在以下數據集上進行微調的，同時包含原始 Manticore 13B 的數據集。

Manticore 13B Chat 在以下數據集的 25% 上進行訓練。這些數據集被合併、洗牌，然後分片為 4 部分。

去重的 Pygmalion 數據集，過濾為角色扮演（RP）數據
riddle_sense - 指令增強
hellaswag，更新為包含詳細解釋，超過 30K 行
gsm8k - 指令增強
ewof/code-alpaca-instruct-unfiltered

Manticore 13B

ShareGPT - 基於清理和去重的子集
WizardLM
Wizard-Vicuna
QingyiSi/Alpaca-CoT 用於角色扮演和思維鏈（CoT）的子集
GPT4-LLM-Cleaned
GPTeacher-General-Instruct
ARC-Easy 和 ARC-Challenge - 指令增強以獲得詳細響應，源自 train 分割
hellaswag - 5K 行子集，指令增強以獲得簡潔響應，源自 train 分割
metaeval/ScienceQA_text_only - 指令增強

📄 許可證

本項目使用其他許可證。

其他信息

Discord

如需進一步支持，以及討論這些模型和通用 AI，請加入我們的 TheBloke AI 的 Discord 服務器。

感謝與貢獻

感謝 chirper.ai 團隊！

感謝 gpus.llm-utils.org 的 Clay！

很多人詢問是否可以貢獻。我喜歡提供模型並幫助他人，希望能有更多時間做這些事，也希望能拓展到新的項目，如微調/訓練。

如果您有能力且願意貢獻，將不勝感激，這將幫助我繼續提供更多模型，並開展新的 AI 項目。

捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

感謝所有慷慨的贊助者和捐贈者！

再次感謝 a16z 的慷慨資助。