Synatra-7B-v0.3-RP-GGUF开源韩语大模型 - 免费部署实现角色扮演与文本生成

首页

Synatra 7B V0.3 RP GGUF

由 TheBloke 开发

Synatra 7B V0.3 RP 是一个基于Mistral架构的7B参数韩语大语言模型，专注于角色扮演和韩语文本生成任务。

大型语言模型韩语#韩语优化 #角色扮演对话 #7B参数量

下载量 3,953

发布时间 : 11/13/2023

模型简介

该模型是基于Mistral架构优化的韩语大语言模型，特别针对角色扮演场景进行了优化，支持流畅的韩语对话生成。

模型特点

韩语优化

专门针对韩语文本生成进行了优化，能够生成流畅自然的韩语内容

角色扮演支持

特别针对角色扮演场景进行了调优，适合对话式交互

量化支持

提供多种量化版本，便于在不同硬件环境下部署

模型能力

韩语文本生成

角色扮演对话

创意写作

对话系统

使用案例

娱乐

角色扮演聊天

与虚拟角色进行韩语对话互动

生成符合角色设定的自然对话

内容创作

韩语故事创作

辅助创作韩语小说或剧本

生成连贯的故事情节和对话

🚀 Synatra 7B V0.3 RP - GGUF

Synatra 7B V0.3 RP - GGUF是一个文本生成模型，基于Mistral架构，由Jeonghwan Park创建。本仓库提供了该模型的GGUF格式文件，支持多种量化方法，可在不同设备上进行推理。

🚀 快速开始

下载GGUF文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev等客户端/库会自动下载模型，并提供可用模型列表供选择。
text-generation-webui：在“Download Model”中输入模型仓库地址TheBloke/Synatra-7B-v0.3-RP-GGUF，并指定要下载的文件名，如synatra-7b-v0.3-rp.Q4_K_M.gguf，然后点击“Download”。
命令行：使用huggingface-hub Python库下载单个模型文件，示例命令如下：

pip3 install huggingface-hub
huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

运行模型

llama.cpp

确保使用的是d0cee0d或更高版本的llama.cpp，示例命令如下：

./main -ngl 32 -m synatra-7b-v0.3-rp.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32：指定要卸载到GPU的层数，若无GPU加速可移除该参数。
-c 2048：指定所需的序列长度。

text-generation-webui

更多说明可参考text-generation-webui文档。

Python代码

可使用llama-cpp-python或ctransformers库从Python中使用GGUF模型，以下是使用ctransformers加载模型的示例代码：

from ctransformers import AutoModelForCausalLM

# 安装包
# 无GPU加速的基础ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（仅适用于Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速（仅适用于macOS系统）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

# 加载模型
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Synatra-7B-v0.3-RP-GGUF", model_file="synatra-7b-v0.3-rp.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

✨ 主要特性

多语言支持：支持韩语（ko）。
多种量化格式：提供2、3、4、5、6和8位的GGUF模型，适用于CPU+GPU推理。
广泛的兼容性：与多种客户端和库兼容，如llama.cpp、text-generation-webui、KoboldCpp等。

📦 安装指南

下载依赖库

pip3 install huggingface-hub

下载模型文件

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # 加载模型的设备

model = AutoModelForCausalLM.from_pretrained("maywell/Synatra-7B-v0.3-RP")
tokenizer = AutoTokenizer.from_pretrained("maywell/Synatra-7B-v0.3-RP")

messages = [
    {"role": "user", "content": "바나나는 원래 하얀색이야?"},
]

encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = encodeds.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

📚 详细文档

模型信息

属性	详情
模型创建者	Jeonghwan Park
模型名称	Synatra 7B V0.3 RP
模型类型	mistral
管道标签	text-generation
提示模板	'<
量化者	TheBloke
许可证	cc-by-nc-4.0

关于GGUF

GGUF是llama.cpp团队在2023年8月21日引入的一种新格式，用于替代不再受llama.cpp支持的GGML格式。以下是一些已知支持GGUF的客户端和库：

llama.cpp：提供CLI和服务器选项。
text-generation-webui：最广泛使用的Web UI，具有许多功能和强大的扩展。
KoboldCpp：功能齐全的Web UI，支持跨所有平台和GPU架构的GPU加速。
LM Studio：适用于Windows和macOS（Silicon）的易于使用且功能强大的本地GUI，支持GPU加速。
LoLLMS Web UI：具有许多有趣和独特功能的优秀Web UI，包括一个完整的模型库，便于模型选择。
Faraday.dev：适用于Windows和macOS（Silicon和Intel）的有吸引力且易于使用的基于角色的聊天GUI，支持GPU加速。
ctransformers：具有GPU加速、LangChain支持和OpenAI兼容AI服务器的Python库。
llama-cpp-python：具有GPU加速、LangChain支持和OpenAI兼容API服务器的Python库。
candle：专注于性能的Rust ML框架，包括GPU支持和易用性。

可用仓库

提示模板

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

兼容性

这些量化的GGUFv2文件与2023年8月27日及以后的llama.cpp版本兼容，对应提交为d0cee0d。它们也与许多第三方UI和库兼容，请参阅本README顶部的列表。

量化方法说明

点击查看详情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超级块包含16个块，每个块有16个权重。块的尺度和最小值用4位量化，最终每个权重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超级块包含16个块，每个块有16个权重。尺度用6位量化，最终使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超级块包含8个块，每个块有32个权重。尺度和最小值用6位量化，最终使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，与GGML_TYPE_Q4_K具有相同的超级块结构，最终使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超级块包含16个块，每个块有16个权重。尺度用8位量化，最终使用6.5625 bpw。

请参考下面的“提供的文件”表，了解哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	位数	大小	所需最大RAM	使用场景
synatra-7b-v0.3-rp.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，但质量损失显著，不建议用于大多数用途
synatra-7b-v0.3-rp.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，但质量损失高
synatra-7b-v0.3-rp.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，但质量损失高
synatra-7b-v0.3-rp.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，但质量损失较大
synatra-7b-v0.3-rp.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	旧版本；小，但质量损失非常高，建议使用Q3_K_M
synatra-7b-v0.3-rp.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，但质量损失较大
synatra-7b-v0.3-rp.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，质量平衡，推荐使用
synatra-7b-v0.3-rp.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	旧版本；中等，质量平衡，建议使用Q4_K_M
synatra-7b-v0.3-rp.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，质量损失低，推荐使用
synatra-7b-v0.3-rp.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，质量损失非常低，推荐使用
synatra-7b-v0.3-rp.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，质量损失极低
synatra-7b-v0.3-rp.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，质量损失极低，不建议使用

注意：上述RAM数字假设没有GPU卸载。如果将层卸载到GPU，这将减少RAM使用并使用VRAM。

如何下载GGUF文件

手动下载者注意：几乎不需要克隆整个仓库！提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件。

以下客户端/库将自动为您下载模型，并提供可用模型列表供选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在`text-generation-webui`中

在“Download Model”下，输入模型仓库地址TheBloke/Synatra-7B-v0.3-RP-GGUF，并在其下方输入要下载的特定文件名，如synatra-7b-v0.3-rp.Q4_K_M.gguf，然后点击“Download”。

在命令行中，包括同时下载多个文件

建议使用huggingface-hub Python库：

pip3 install huggingface-hub

然后可以使用以下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的huggingface-cli下载用法

也可以使用通配符同时下载多个文件：

huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用huggingface-cli下载的更多文档，请参阅：HF -> Hub Python Library -> Download files -> Download from the CLI。

为了在高速连接（1Gbit/s或更高）上加速下载，请安装hf_transfer：

pip3 install hf_transfer

并将环境变量HF_HUB_ENABLE_HF_TRANSFER设置为1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Synatra-7B-v0.3-RP-GGUF synatra-7b-v0.3-rp.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用户：可以在下载命令前运行set HF_HUB_ENABLE_HF_TRANSFER=1来设置环境变量。

如何使用LangChain

以下是使用llama-cpp-python和ctransformers与LangChain的指南：

🔧 技术细节

模型基准

Ko-LLM-Leaderboard

正在进行基准测试...

Open LLM Leaderboard评估结果

指标	值
平均	57.38
ARC (25-shot)	62.2
HellaSwag (10-shot)	82.29
MMLU (5-shot)	60.8
TruthfulQA (0-shot)	52.64
Winogrande (5-shot)	76.48
GSM8K (5-shot)	21.15
DROP (3-shot)	46.06

详细结果可查看此处。

为什么基准分数低于预览版本？

显然，预览模型使用的是Alpaca风格的提示，没有前缀，而ChatML有。

📄 许可证

本模型严格遵循非商业（cc-by-nc-4.0）使用许可。只要任何父仓库中包含cc-by-nc-4.0许可证，并且非商业使用规定仍然有效，“模型”（即基础模型、派生模型、合并/混合模型）可完全免费用于非商业目的，无论其他模型的许可证如何。新模型发布后，许可证可能会更改。如果您要将此模型用于商业目的，请联系模型创建者。

Discord

如需进一步支持，以及讨论这些模型和AI相关内容，请加入TheBloke AI的Discord服务器。

感谢与贡献方式

感谢chirper.ai团队！感谢来自gpus.llm-utils.org的Clay！

很多人询问是否可以进行贡献。我喜欢提供模型并帮助他人，也希望能够花更多时间做这些事情，同时开展新的项目，如微调/训练。

如果您有能力且愿意贡献，我将非常感激，这将帮助我继续提供更多模型，并开展新的AI项目。捐赠者将在任何AI/LLM/模型问题和请求上获得优先支持，访问私人Discord房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon特别提及：Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bjäreholt、John Detwiler、Leonard Tan、Iucharbius

感谢所有慷慨的赞助者和捐赠者！再次感谢a16z的慷慨资助。