🚀 Bielik-11B-v2.3-Instruct-GGUF
本仓库包含 SpeakLeash 的 Bielik-11B-v.2.3-Instruct 模型的 GGUF 格式文件。该项目提供了特定模型的量化版本,适用于文本生成任务,支持多种客户端和库,方便不同场景下的使用。
⚠️ 重要提示
请注意,量化模型的响应质量可能会降低,并且可能会出现幻觉现象!
🚀 快速开始
可用的量化格式
- q4_k_m:对一半的注意力层
attention.wv
和前馈层 feed_forward.w2
张量使用 Q6_K,其余使用 Q4_K。
- q5_k_m:对一半的注意力层
attention.wv
和前馈层 feed_forward.w2
张量使用 Q6_K,其余使用 Q5_K。
- q6_k:对所有张量使用 Q8_K。
- q8_0:几乎与 float16 无差别。资源消耗高且速度慢,不建议大多数用户使用。
Ollama Modfile
GGUF 文件可与 Ollama 一起使用。为此,你需要使用 Modfile 中定义的配置导入模型。以 Bielik-11B-v2.3-Instruct.Q4_K_M.gguf 模型(模型完整路径)为例,Modfile 如下:
FROM ./Bielik-11B-v2.3-Instruct.Q4_K_M.gguf
TEMPLATE """<s>{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
# 记得为实验模型(1 - 3 位)设置低温
PARAMETER temperature 0.1
📚 详细文档
模型描述
关于 GGUF
GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的一种新格式。
以下是已知支持 GGUF 的客户端和库的不完全列表:
- llama.cpp:GGUF 的源项目,提供命令行界面和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持所有平台和 GPU 架构的 GPU 加速,尤其适合讲故事。
- GPT4All:免费开源的本地运行 GUI,支持 Windows、Linux 和 macOS,具备完整的 GPU 加速功能。
- LM Studio:适用于 Windows、macOS(Silicon)和 Linux 的易用且强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:出色的 Web UI,具有许多有趣和独特的功能,包括完整的模型库,便于模型选择。
- Faraday.dev:适用于 Windows 和 macOS(Silicon 和 Intel)的有吸引力且易于使用的基于角色的聊天 GUI,支持 GPU 加速。
- llama-cpp-python:支持 GPU 加速的 Python 库,具备 LangChain 支持和与 OpenAI 兼容的 API 服务器。
- candle:专注于性能的 Rust ML 框架,包括 GPU 支持,且易于使用。
- ctransformers:支持 GPU 加速的 Python 库,具备 LangChain 支持和与 OpenAI 兼容的 AI 服务器。请注意,ctransformers 很久没有更新,不支持许多最新模型。
模型量化负责人
📄 许可证
本项目采用 Apache 2.0 许可证和 使用条款。
💬 联系我们
如果您有任何问题或建议,请使用讨论标签。如果您想直接联系我们,请加入我们的 Discord SpeakLeash。