模型简介
模型特点
模型能力
使用案例
🚀 日语StableLM指令Gamma 7B - GGUF
本项目提供了日语StableLM指令Gamma 7B模型的GGUF格式文件,可用于文本生成任务。该模型基于Mistral架构,由Stability AI创建,适用于多种推理场景。
🚀 快速开始
本仓库包含 Stability AI的日语StableLM指令Gamma 7B 的GGUF格式模型文件。这些文件是使用 Massed Compute 提供的硬件进行量化的。
✨ 主要特性
- 多格式支持:提供多种量化格式的模型文件,包括AWQ、GPTQ和GGUF,适用于不同的推理需求。
- 广泛兼容性:与多种客户端和库兼容,如llama.cpp、text-generation-webui、KoboldCpp等。
- 高效推理:支持GPU加速,可在不同平台上实现高效的文本生成。
📦 安装指南
下载GGUF文件
手动下载时,几乎不需要克隆整个仓库,因为提供了多种不同的量化格式,大多数用户只需要选择并下载单个文件。以下客户端/库会自动为你下载模型,并提供可用模型列表供你选择:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中下载
在“Download Model”下,输入模型仓库地址 TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF
,并在下方输入要下载的具体文件名,如 japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf
,然后点击“Download”。
在命令行下载
推荐使用 huggingface-hub
Python库:
pip3 install huggingface-hub
然后可以使用以下命令将任何单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
也可以使用通配符一次下载多个文件:
huggingface-cli download TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
要在高速连接(1Gbit/s或更高)上加速下载,请安装 hf_transfer
:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER
设置为 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用户可以在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1
来设置环境变量。
💻 使用示例
基础用法
以下是在 llama.cpp
中运行模型的示例命令:
./main -ngl 32 -m japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。\n\n### 指示: \n{prompt}\n\n### 入力: \n{input}\n\n### 応答:"
-ngl 32
:将其更改为要卸载到GPU的层数。如果没有GPU加速,请删除此参数。-c 2048
:将其更改为所需的序列长度。对于扩展序列模型(如8K、16K、32K),必要的RoPE缩放参数会从GGUF文件中读取并由llama.cpp
自动设置。- 如果要进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。
其他参数的使用方法请参考 llama.cpp文档。
高级用法
在 text-generation-webui
中运行
详细说明请参考 text-generation-webui/docs/llama.cpp.md。
从Python代码运行
可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。
使用 ctransformers
加载模型
首先根据系统运行以下命令之一安装包:
# 无GPU加速的基础ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(仅适用于Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速(仅适用于macOS系统)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
以下是简单的 ctransformers
示例代码:
from ctransformers import AutoModelForCausalLM
# 将gpu_layers设置为要卸载到GPU的层数。如果系统没有GPU加速,请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF", model_file="japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
与LangChain一起使用
以下是使用 llama-cpp-python
和 ctransformers
与LangChain的指南:
📚 详细文档
关于GGUF
GGUF是llama.cpp团队在2023年8月21日引入的一种新格式,它是GGML的替代品,而GGML已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp:GGUF的源项目,提供CLI和服务器选项。
- text-generation-webui:最广泛使用的Web UI,具有许多功能和强大的扩展,支持GPU加速。
- KoboldCpp:功能齐全的Web UI,支持所有平台和GPU架构的GPU加速,尤其适合讲故事。
- LM Studio:适用于Windows和macOS(Silicon)的易于使用且功能强大的本地GUI,支持GPU加速。
- LoLLMS Web UI:一个很棒的Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:适用于Windows和macOS(Silicon和Intel)的有吸引力且易于使用的基于角色的聊天GUI,支持GPU加速。
- ctransformers:一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
- llama-cpp-python:一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
- candle:一个专注于性能的Rust ML框架,包括GPU支持和易用性。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,具有多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Stability AI的原始未量化fp16 PyTorch格式模型,用于GPU推理和进一步转换
提示模板
以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。
### 指示:
{prompt}
### 入力:
{input}
### 応答:
兼容性
这些量化的GGUFv2文件与8月27日之后的 llama.cpp
兼容,截至提交 d0cee0d。它们也与许多第三方UI和库兼容,请参阅本README顶部的列表。
量化方法说明
点击查看详情
新的可用方法如下:
- GGML_TYPE_Q2_K:“type-1” 2位量化,超级块包含16个块,每个块有16个权重。块的缩放和最小值用4位量化,最终每个权重有效使用2.5625位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3位量化,超级块包含16个块,每个块有16个权重。缩放用6位量化,最终使用3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4位量化,超级块包含8个块,每个块有32个权重。缩放和最小值用6位量化,最终使用4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5位量化,与GGML_TYPE_Q4_K具有相同的超级块结构,最终使用5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6位量化,超级块有16个块,每个块有16个权重。缩放用8位量化,最终使用6.5625 bpw。
请参考下面的“提供的文件”表,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
注意:上述RAM数字假设没有进行GPU卸载。如果将层卸载到GPU,将减少RAM使用并使用VRAM代替。
🔧 技术细节
模型详情
属性 | 详情 |
---|---|
模型创建者 | Stability AI |
模型类型 | 基于Transformer解码器架构的自回归语言模型 |
语言 | 日语 |
许可证 | Apache License, Version 2.0 |
联系信息 | 有关模型的问题和评论,请加入 Stable Community Japan。有关Stability AI模型、研究和活动的未来公告/信息,请关注 https://twitter.com/StabilityAI_JP。 |
模型架构
详细信息请参阅Mistral AI的 论文 和 发布博客文章。
训练数据集
- Databricks Dolly-15k数据集的日语翻译
- Anthropic HH数据集子集的日语翻译
- Wikinews 子集 of the izumi-lab/llm-japanese-dataset
使用和限制
预期用途
该模型旨在供所有个人用作特定应用微调的基础模型,对商业使用没有严格限制。
限制和偏差
预训练数据集即使在应用数据清理过滤器后仍可能包含冒犯性或不适当的内容,这可能会反映在模型生成的文本中。建议用户在生产系统中使用这些模型时保持合理的谨慎。不要将模型用于可能对个人或群体造成伤害或困扰的任何应用。
致谢
本模型基于Mistral AI团队发布的Mistral-7B-v0.1。感谢Mistral AI团队提供如此出色的基础模型。
感谢EleutherAI Polyglot-JA团队的贡献,他们帮助我们收集了大量的日语预训练数据。Polyglot-JA成员包括Hyunwoong Ko(项目负责人)、Fujiki Nakamura(最初在他加入Polyglot团队时启动了这个项目)、Yunho Mo、Minji Jung、KeunSeok Im和Su-Kyeong Jang。
感谢 AI Novelist/Sta (Bit192, Inc.) 和 Stable Community Japan 的众多贡献者,他们帮助我们收集了大量高质量的日语文本数据用于模型训练。
📄 许可证
本模型遵循 Apache License, Version 2.0。
🔗 社区与支持
Discord
如需进一步支持以及讨论这些模型和AI相关内容,请加入 TheBloke AI的Discord服务器。
贡献与感谢
感谢 chirper.ai 团队!感谢 gpus.llm-utils.org 的Clay!
许多人询问是否可以提供贡献。我很乐意提供模型并帮助他人,也希望能够花更多时间做这些事情,并扩展到新的项目(如微调/训练)。
如果您有能力并愿意提供贡献,我将非常感激,这将帮助我继续提供更多模型,并开始新的AI项目。捐赠者将在任何AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bjäreholt、John Detwiler、Leonard Tan、Iucharbius
感谢所有慷慨的赞助者和捐赠者!再次感谢a16z的慷慨资助。



