Synatra-7B-v0.3-RP-GGUF開源韓語大模型 - 免費部署實現角色扮演與文本生成

首頁

Synatra 7B V0.3 RP GGUF

由TheBloke開發

Synatra 7B V0.3 RP 是一個基於Mistral架構的7B參數韓語大語言模型，專注於角色扮演和韓語文本生成任務。

大型語言模型韓語#韓語優化 #角色扮演對話 #7B參數量

下載量 3,953

發布時間 : 11/13/2023

模型概述

該模型是基於Mistral架構優化的韓語大語言模型，特別針對角色扮演場景進行了優化，支持流暢的韓語對話生成。

模型特點

韓語優化

專門針對韓語文本生成進行了優化，能夠生成流暢自然的韓語內容

角色扮演支持

特別針對角色扮演場景進行了調優，適合對話式交互

量化支持

提供多種量化版本，便於在不同硬件環境下部署

模型能力

韓語文本生成

角色扮演對話

創意寫作

對話系統

使用案例

娛樂

角色扮演聊天

與虛擬角色進行韓語對話互動

生成符合角色設定的自然對話

內容創作

韓語故事創作

輔助創作韓語小說或劇本

生成連貫的故事情節和對話

🚀 Synatra 7B V0.3 RP - GGUF

Synatra 7B V0.3 RP - GGUF是一個文本生成模型，基於Mistral架構，由Jeonghwan Park創建。本倉庫提供了該模型的GGUF格式文件，支持多種量化方法，可在不同設備上進行推理。

🚀 快速開始

下載GGUF文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev等客戶端/庫會自動下載模型，並提供可用模型列表供選擇。
text-generation-webui：在“Download Model”中輸入模型倉庫地址TheBloke/Synatra-7B-v0.3-RP-GGUF，並指定要下載的文件名，如synatra-7b-v0.3-rp.Q4_K_M.gguf，然後點擊“Download”。
命令行：使用huggingface-hub Python庫下載單個模型文件，示例命令如下：

pip3 install huggingface-hub
huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

運行模型

llama.cpp

確保使用的是d0cee0d或更高版本的llama.cpp，示例命令如下：

./main -ngl 32 -m synatra-7b-v0.3-rp.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32：指定要卸載到GPU的層數，若無GPU加速可移除該參數。
-c 2048：指定所需的序列長度。

text-generation-webui

更多說明可參考text-generation-webui文檔。

Python代碼

可使用llama-cpp-python或ctransformers庫從Python中使用GGUF模型，以下是使用ctransformers加載模型的示例代碼：

from ctransformers import AutoModelForCausalLM

# 安裝包
# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（僅適用於Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速（僅適用於macOS系統）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

# 加載模型
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Synatra-7B-v0.3-RP-GGUF", model_file="synatra-7b-v0.3-rp.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

✨ 主要特性

多語言支持：支持韓語（ko）。
多種量化格式：提供2、3、4、5、6和8位的GGUF模型，適用於CPU+GPU推理。
廣泛的兼容性：與多種客戶端和庫兼容，如llama.cpp、text-generation-webui、KoboldCpp等。

📦 安裝指南

下載依賴庫

pip3 install huggingface-hub

下載模型文件

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # 加載模型的設備

model = AutoModelForCausalLM.from_pretrained("maywell/Synatra-7B-v0.3-RP")
tokenizer = AutoTokenizer.from_pretrained("maywell/Synatra-7B-v0.3-RP")

messages = [
    {"role": "user", "content": "바나나는 원래 하얀색이야?"},
]

encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = encodeds.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

📚 詳細文檔

模型信息

屬性	詳情
模型創建者	Jeonghwan Park
模型名稱	Synatra 7B V0.3 RP
模型類型	mistral
管道標籤	text-generation
提示模板	'<
量化者	TheBloke
許可證	cc-by-nc-4.0

關於GGUF

GGUF是llama.cpp團隊在2023年8月21日引入的一種新格式，用於替代不再受llama.cpp支持的GGML格式。以下是一些已知支持GGUF的客戶端和庫：

llama.cpp：提供CLI和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展。
KoboldCpp：功能齊全的Web UI，支持跨所有平臺和GPU架構的GPU加速。
LM Studio：適用於Windows和macOS（Silicon）的易於使用且功能強大的本地GUI，支持GPU加速。
LoLLMS Web UI：具有許多有趣和獨特功能的優秀Web UI，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：適用於Windows和macOS（Silicon和Intel）的有吸引力且易於使用的基於角色的聊天GUI，支持GPU加速。
ctransformers：具有GPU加速、LangChain支持和OpenAI兼容AI服務器的Python庫。
llama-cpp-python：具有GPU加速、LangChain支持和OpenAI兼容API服務器的Python庫。
candle：專注於性能的Rust ML框架，包括GPU支持和易用性。

可用倉庫

提示模板

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

兼容性

這些量化的GGUFv2文件與2023年8月27日及以後的llama.cpp版本兼容，對應提交為d0cee0d。它們也與許多第三方UI和庫兼容，請參閱本README頂部的列表。

量化方法說明

點擊查看詳情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超級塊包含16個塊，每個塊有16個權重。塊的尺度和最小值用4位量化，最終每個權重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超級塊包含16個塊，每個塊有16個權重。尺度用6位量化，最終使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超級塊包含8個塊，每個塊有32個權重。尺度和最小值用6位量化，最終使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，與GGML_TYPE_Q4_K具有相同的超級塊結構，最終使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超級塊包含16個塊，每個塊有16個權重。尺度用8位量化，最終使用6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	位數	大小	所需最大RAM	使用場景
synatra-7b-v0.3-rp.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，但質量損失顯著，不建議用於大多數用途
synatra-7b-v0.3-rp.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，但質量損失高
synatra-7b-v0.3-rp.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，但質量損失高
synatra-7b-v0.3-rp.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，但質量損失較大
synatra-7b-v0.3-rp.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	舊版本；小，但質量損失非常高，建議使用Q3_K_M
synatra-7b-v0.3-rp.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，但質量損失較大
synatra-7b-v0.3-rp.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，質量平衡，推薦使用
synatra-7b-v0.3-rp.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	舊版本；中等，質量平衡，建議使用Q4_K_M
synatra-7b-v0.3-rp.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，質量損失低，推薦使用
synatra-7b-v0.3-rp.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，質量損失非常低，推薦使用
synatra-7b-v0.3-rp.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，質量損失極低
synatra-7b-v0.3-rp.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，質量損失極低，不建議使用

注意：上述RAM數字假設沒有GPU卸載。如果將層卸載到GPU，這將減少RAM使用並使用VRAM。

如何下載GGUF文件

手動下載者注意：幾乎不需要克隆整個倉庫！提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件。

以下客戶端/庫將自動為您下載模型，並提供可用模型列表供選擇：

LM Studio
LoLLMS Web UI
Faraday.dev

在`text-generation-webui`中

在“Download Model”下，輸入模型倉庫地址TheBloke/Synatra-7B-v0.3-RP-GGUF，並在其下方輸入要下載的特定文件名，如synatra-7b-v0.3-rp.Q4_K_M.gguf，然後點擊“Download”。

在命令行中，包括同時下載多個文件

建議使用huggingface-hub Python庫：

pip3 install huggingface-hub

然後可以使用以下命令將任何單個模型文件高速下載到當前目錄：

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高級的huggingface-cli下載用法

也可以使用通配符同時下載多個文件：

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有關使用huggingface-cli下載的更多文檔，請參閱：HF -> Hub Python Library -> Download files -> Download from the CLI。

為了在高速連接（1Gbit/s或更高）上加速下載，請安裝hf_transfer：

pip3 install hf_transfer

並將環境變量HF_HUB_ENABLE_HF_TRANSFER設置為1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用戶：可以在下載命令前運行set HF_HUB_ENABLE_HF_TRANSFER=1來設置環境變量。

如何使用LangChain

以下是使用llama-cpp-python和ctransformers與LangChain的指南：

🔧 技術細節

模型基準

Ko-LLM-Leaderboard

正在進行基準測試...

Open LLM Leaderboard評估結果

指標	值
平均	57.38
ARC (25-shot)	62.2
HellaSwag (10-shot)	82.29
MMLU (5-shot)	60.8
TruthfulQA (0-shot)	52.64
Winogrande (5-shot)	76.48
GSM8K (5-shot)	21.15
DROP (3-shot)	46.06

詳細結果可查看此處。

為什麼基準分數低於預覽版本？

顯然，預覽模型使用的是Alpaca風格的提示，沒有前綴，而ChatML有。

📄 許可證

本模型嚴格遵循非商業（cc-by-nc-4.0）使用許可。只要任何父倉庫中包含cc-by-nc-4.0許可證，並且非商業使用規定仍然有效，“模型”（即基礎模型、派生模型、合併/混合模型）可完全免費用於非商業目的，無論其他模型的許可證如何。新模型發佈後，許可證可能會更改。如果您要將此模型用於商業目的，請聯繫模型創建者。

Discord

如需進一步支持，以及討論這些模型和AI相關內容，請加入TheBloke AI的Discord服務器。

感謝與貢獻方式

感謝chirper.ai團隊！感謝來自gpus.llm-utils.org的Clay！

很多人詢問是否可以進行貢獻。我喜歡提供模型並幫助他人，也希望能夠花更多時間做這些事情，同時開展新的項目，如微調/訓練。

如果您有能力且願意貢獻，我將非常感激，這將幫助我繼續提供更多模型，並開展新的AI項目。捐贈者將在任何AI/LLM/模型問題和請求上獲得優先支持，訪問私人Discord房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon特別提及：Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bjäreholt、John Detwiler、Leonard Tan、Iucharbius

感謝所有慷慨的贊助者和捐贈者！再次感謝a16z的慷慨資助。