🚀 Bielik-11B-v2.3-Instruct-GGUF
本倉庫包含 SpeakLeash 的 Bielik-11B-v.2.3-Instruct 模型的 GGUF 格式文件。該項目提供了特定模型的量化版本,適用於文本生成任務,支持多種客戶端和庫,方便不同場景下的使用。
⚠️ 重要提示
請注意,量化模型的響應質量可能會降低,並且可能會出現幻覺現象!
🚀 快速開始
可用的量化格式
- q4_k_m:對一半的注意力層
attention.wv
和前饋層 feed_forward.w2
張量使用 Q6_K,其餘使用 Q4_K。
- q5_k_m:對一半的注意力層
attention.wv
和前饋層 feed_forward.w2
張量使用 Q6_K,其餘使用 Q5_K。
- q6_k:對所有張量使用 Q8_K。
- q8_0:幾乎與 float16 無差別。資源消耗高且速度慢,不建議大多數用戶使用。
Ollama Modfile
GGUF 文件可與 Ollama 一起使用。為此,你需要使用 Modfile 中定義的配置導入模型。以 Bielik-11B-v2.3-Instruct.Q4_K_M.gguf 模型(模型完整路徑)為例,Modfile 如下:
FROM ./Bielik-11B-v2.3-Instruct.Q4_K_M.gguf
TEMPLATE """<s>{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
# 記得為實驗模型(1 - 3 位)設置低溫
PARAMETER temperature 0.1
📚 詳細文檔
模型描述
關於 GGUF
GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日推出的一種新格式。
以下是已知支持 GGUF 的客戶端和庫的不完全列表:
- llama.cpp:GGUF 的源項目,提供命令行界面和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持所有平臺和 GPU 架構的 GPU 加速,尤其適合講故事。
- GPT4All:免費開源的本地運行 GUI,支持 Windows、Linux 和 macOS,具備完整的 GPU 加速功能。
- LM Studio:適用於 Windows、macOS(Silicon)和 Linux 的易用且強大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:出色的 Web UI,具有許多有趣和獨特的功能,包括完整的模型庫,便於模型選擇。
- Faraday.dev:適用於 Windows 和 macOS(Silicon 和 Intel)的有吸引力且易於使用的基於角色的聊天 GUI,支持 GPU 加速。
- llama-cpp-python:支持 GPU 加速的 Python 庫,具備 LangChain 支持和與 OpenAI 兼容的 API 服務器。
- candle:專注於性能的 Rust ML 框架,包括 GPU 支持,且易於使用。
- ctransformers:支持 GPU 加速的 Python 庫,具備 LangChain 支持和與 OpenAI 兼容的 AI 服務器。請注意,ctransformers 很久沒有更新,不支持許多最新模型。
模型量化負責人
📄 許可證
本項目採用 Apache 2.0 許可證和 使用條款。
💬 聯繫我們
如果您有任何問題或建議,請使用討論標籤。如果您想直接聯繫我們,請加入我們的 Discord SpeakLeash。