Mythalion-13B-GGUF開源大語言模型 - 免費實現文本生成與指令跟隨

首頁

Mythalion 13B GGUF

由TheBloke開發

Mythalion 13B是由PygmalionAI開發的13B參數規模的大語言模型，基於Llama架構，專注於文本生成和指令跟隨任務。

大型語言模型英語#多輪對話優化 #角色扮演專用 #指令跟隨型

下載量 2,609

發布時間 : 9/5/2023

模型概述

這是一個13B參數規模的指令跟隨型大語言模型，支持英文文本生成，適用於對話、創作和問答等多種場景。

模型特點

多數據集訓練

融合了PIPPA、OpenOrca等多個高質量數據集進行訓練

指令跟隨

專門優化用於理解和執行用戶指令

量化支持

提供多種量化版本，適應不同硬件需求

模型能力

文本生成

指令理解

多輪對話

故事創作

問答系統

使用案例

創意寫作

故事生成

根據用戶提示生成連貫的故事內容

對話系統

角色扮演對話

模擬特定角色的對話風格和行為模式

🚀 Mythalion 13B - GGUF

Mythalion 13B - GGUF 是由 PygmalionAI 創建的文本生成模型，基於 Llama 架構。它使用了多個數據集進行訓練，可用於生成文本內容。本項目提供了多種量化格式的模型文件，支持不同的推理方式和使用場景。

🚀 快速開始

下載模型文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動為你下載模型，並提供可用模型列表供你選擇。
text-generation-webui 中下載：在 Download Model 下，輸入模型倉庫地址 TheBloke/Mythalion-13B-GGUF，然後在下方輸入要下載的具體文件名，如 mythalion-13b.q4_K_M.gguf，最後點擊 Download。
命令行下載：推薦使用 huggingface-hub Python 庫。首先安裝：

pip3 install huggingface-hub>=0.17.1

然後使用以下命令高速下載單個模型文件到當前目錄：

huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

運行模型

llama.cpp 命令示例

確保使用的是 2023 年 8 月 27 日之後的 llama.cpp 版本（提交號：d0cee0d36d5be95a0d9088b674dbb27354107221）。

./main -ngl 32 -m mythalion-13b.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:"

-ngl 32：將其改為要卸載到 GPU 的層數。如果沒有 GPU 加速，請移除該參數。
-c 4096：改為所需的序列長度。對於擴展序列模型（如 8K、16K、32K），必要的 RoPE 縮放參數會從 GGUF 文件中讀取並由 llama.cpp 自動設置。
若要進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。

在 text-generation-webui 中運行

更多說明請參考：text-generation-webui/docs/llama.cpp.md。

從 Python 代碼運行

可以使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。

✨ 主要特性

多數據集訓練：使用了 PygmalionAI/PIPPA、Open-Orca/OpenOrca 等多個數據集進行訓練，提升了模型的性能和泛化能力。
多種量化格式：提供了 Q2_K、Q3_K_S 等多種量化格式的模型文件，可根據不同的需求選擇合適的文件，平衡模型大小和質量。
廣泛的兼容性：支持 llama.cpp、text-generation-webui 等多種客戶端和庫，方便用戶進行推理和使用。

📦 安裝指南

安裝依賴庫

若要使用命令行下載模型文件，需安裝 huggingface-hub Python 庫：

pip3 install huggingface-hub>=0.17.1

若要加速下載（在 1Gbit/s 或更高的高速連接上），安裝 hf_transfer：

pip3 install hf_transfer

並設置環境變量 HF_HUB_ENABLE_HF_TRANSFER 為 1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLI 用戶在運行下載命令前使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

安裝 ctransformers 庫（用於 Python 代碼運行）

# 無 GPU 加速的基礎 ctransformers
pip install ctransformers>=0.2.24
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]>=0.2.24
# 或使用 ROCm GPU 加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或為 macOS 系統使用 Metal GPU 加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

💻 使用示例

基礎用法

from ctransformers import AutoModelForCausalLM

# 將 gpu_layers 設置為要卸載到 GPU 的層數。如果系統上沒有 GPU 加速，則設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高級用法

在實際應用中，可以根據具體需求調整模型的參數，如溫度、重複懲罰等，以獲得不同風格和質量的生成結果。同時，可以結合 LangChain 等工具，實現更復雜的自然語言處理任務。

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。GGUF 具有許多優於 GGML 的優點，如更好的分詞、對特殊令牌的支持，還支持元數據，並且設計為可擴展的。

以下是已知支持 GGUF 的客戶端和庫的不完全列表：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持和易用性。

可用的倉庫

提示模板

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

兼容性

這些量化的 GGUFv2 文件與 2023 年 8 月 27 日之後的 llama.cpp 版本兼容（提交號：d0cee0d36d5be95a0d9088b674dbb27354107221）。

它們也與許多第三方 UI 和庫兼容，請參閱本 README 頂部的列表。

量化方法解釋

點擊查看詳情

新的可用方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的比例和最小值用 4 位量化。最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。比例用 6 位量化。最終使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。比例和最小值用 6 位量化。最終使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化。超級塊包含 16 個塊，每個塊有 16 個權重。比例用 8 位量化。最終使用 6.5625 bpw。

請參考下面的提供文件表，查看哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	位數	大小	所需最大 RAM	使用場景
mythalion-13b.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小，但質量損失顯著，不建議用於大多數用途
mythalion-13b.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常小，但質量損失高
mythalion-13b.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常小，但質量損失高
mythalion-13b.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小，但質量損失較大
mythalion-13b.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	舊版本；小，但質量損失非常高，建議使用 Q3_K_M
mythalion-13b.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小，但質量損失更大
mythalion-13b.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中等，質量平衡，推薦使用
mythalion-13b.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	舊版本；中等，質量平衡，建議使用 Q4_K_M
mythalion-13b.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大，質量損失低，推薦使用
mythalion-13b.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大，質量損失非常低，推薦使用
mythalion-13b.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常大，質量損失極低
mythalion-13b.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常大，質量損失極低，不建議使用

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，這將減少 RAM 使用並使用 VRAM 代替。

🔧 技術細節

模型類型和基礎模型

Mythalion 13B 基於 Llama 架構，基礎模型為 PygmalionAI/mythalion-13b。它是 Pygmalion-2 13B 和 MythoMax 13B 的融合模型。

訓練數據

該模型使用了多個數據集進行訓練，包括：

PygmalionAI/PIPPA
Open-Orca/OpenOrca
Norquinal/claude_multiround_chat_30k
jondurbin/airoboros-gpt4-1.4.1
databricks/databricks-dolly-15k

量化處理

由 TheBloke 進行量化處理，提供了多種量化方法和格式的模型文件，以滿足不同的需求和硬件條件。

📄 許可證

本模型使用 Llama2 許可證，可用於商業和非商業用途。

其他信息

Discord

如需進一步支持，或討論這些模型和 AI 相關內容，請加入：TheBloke AI 的 Discord 服務器

感謝與貢獻

感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay！

如果您能夠並願意做出貢獻，將不勝感激，這將幫助我繼續提供更多模型，並開展新的 AI 項目。捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh、Stephen Murray 等眾多支持者。

再次感謝 a16z 的慷慨資助！

原始模型卡片

模型詳情

Mythalion 13B 是 Pygmalion-2 13B 和 MythoMax 13B 的融合模型，由 PygmalionAI 與 Gryphe 合作創建。融合的更多細節可在我們的博客文章中查看。

該模型根據測試者反饋，在角色扮演/聊天方面似乎優於 MythoMax。請確保遵循此處推薦的 SillyTavern 生成設置以獲得最佳效果！

本模型根據 Llama-2 許可證，可免費用於商業和非商業用途。

提示方式

該模型可以使用 Alpaca 和 Pygmalion 格式進行提示。

Alpaca 格式：

### Instruction:
<prompt>

### Response:
<留一個空行供模型回覆>

Pygmalion/Metharme 格式：

<|system|>Enter RP mode. Pretend to be {{char}} whose persona follows:
{{persona}}

You shall reply to the user while staying in character, and generate long responses.
<|user|>Hello!<|model|>{model's response goes here}

模型在訓練時使用了三種不同角色的提示，由以下令牌表示：<|system|>、<|user|> 和 <|model|>。