模型概述
模型特點
模型能力
使用案例
🚀 Openchat 3.5 1210 - GGUF
Openchat 3.5 1210 - GGUF 是經過量化處理的模型文件,適用於多種客戶端和庫,可用於文本生成任務。它基於 OpenChat 的原始模型,在性能和兼容性上有良好表現。
🚀 快速開始
若你想使用 Openchat 3.5 1210 - GGUF 模型,可按以下步驟操作:
- 下載合適的量化文件。
- 依據自身需求,選擇合適的客戶端或庫來運行模型。
✨ 主要特性
- 多兼容性:與 llama.cpp 及眾多第三方 UI 和庫兼容。
- 多種量化方法:提供多種量化方法,滿足不同的使用場景和需求。
- 便捷下載:可通過多種方式下載量化文件,如使用特定客戶端或命令行工具。
📦 安裝指南
安裝依賴庫
若要使用命令行下載模型文件,需安裝 huggingface-hub
Python 庫:
pip3 install huggingface-hub
若想加速下載,可安裝 hf_transfer
:
pip3 install hf_transfer
下載模型文件
可使用 huggingface-cli
下載單個模型文件:
huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
若要同時下載多個文件,可使用模式匹配:
huggingface-cli download TheBloke/openchat-3.5-1210-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
若安裝了 hf_transfer
,可設置環境變量加速下載:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows 命令行用戶可在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1
設置環境變量。
💻 使用示例
基礎用法
llama.cpp 命令示例
確保使用的是 2023 年 8 月 27 日之後的 llama.cpp 版本(提交號 d0cee0d 及之後):
./main -ngl 35 -m openchat-3.5-1210.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:"
-ngl 35
:將 35 層模型加載到 GPU 上,若無 GPU 加速可移除該參數。-c 8192
:設置序列長度,更長的序列長度需要更多資源,可根據實際情況調整。- 若要進行聊天式對話,可將
-p <PROMPT>
參數替換為-i -ins
。
text-generation-webui 中使用
具體說明可參考 text-generation-webui 文檔。
Python 代碼中使用
使用 llama-cpp-python
庫加載模型:
from llama_cpp import Llama
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
model_path="./openchat-3.5-1210.Q4_K_M.gguf", # Download the model file first
n_ctx=8192, # The max sequence length to use - note that longer sequence lengths require much more resources
n_threads=8, # The number of CPU threads to use, tailor to your system and the resulting performance
n_gpu_layers=35 # The number of layers to offload to GPU, if you have GPU acceleration available
)
# Simple inference example
output = llm(
"GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:", # Prompt
max_tokens=512, # Generate up to 512 tokens
stop=["</s>"], # Example stop token - not necessarily correct for this specific model! Please check before using.
echo=True # Whether to echo the prompt
)
# Chat Completion API
llm = Llama(model_path="./openchat-3.5-1210.Q4_K_M.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
高級用法
使用 LangChain
可參考以下指南使用 llama-cpp-python
和 ctransformers
與 LangChain 結合:
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
基礎模型 | openchat/openchat-3.5-1210 |
數據集 | openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection、imone/OpenOrca_FLAN 等 |
推理 | false |
庫名稱 | transformers |
許可證 | apache-2.0 |
模型創建者 | OpenChat |
模型名稱 | Openchat 3.5 1210 |
模型類型 | mistral |
任務類型 | 文本生成 |
提示模板 | GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant: |
量化者 | TheBloke |
標籤 | openchat、mistral、C-RLFT |
提示模板
GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:
兼容性
這些量化的 GGUFv2 文件與 2023 年 8 月 27 日之後的 llama.cpp 兼容(提交號 d0cee0d),也與許多第三方 UI 和庫兼容,具體列表可查看文檔開頭部分。
量化方法說明
點擊查看詳情
新的量化方法如下:
- GGML_TYPE_Q2_K - “type-1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的縮放和最小值用 4 位量化,最終每個權重有效使用 2.5625 位。
- GGML_TYPE_Q3_K - “type-0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。縮放用 6 位量化,最終每個權重使用 3.4375 位。
- GGML_TYPE_Q4_K - “type-1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。縮放和最小值用 6 位量化,最終每個權重使用 4.5 位。
- GGML_TYPE_Q5_K - “type-1” 5 位量化,超級塊結構與 GGML_TYPE_Q4_K 相同,最終每個權重使用 5.5 位。
- GGML_TYPE_Q6_K - “type-0” 6 位量化,超級塊有 16 個塊,每個塊有 16 個權重。縮放用 8 位量化,最終每個權重使用 6.5625 位。
具體文件使用的量化方法可參考下面的“提供的文件”表格。
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
openchat-3.5-1210.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,質量損失顯著,不建議大多數場景使用 |
openchat-3.5-1210.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,質量損失高 |
openchat-3.5-1210.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,質量損失高 |
openchat-3.5-1210.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,質量損失較大 |
openchat-3.5-1210.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 舊版本,小,質量損失非常高,建議使用 Q3_K_M |
openchat-3.5-1210.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,質量損失較大 |
openchat-3.5-1210.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,質量平衡,推薦使用 |
openchat-3.5-1210.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 舊版本,中等,質量平衡,建議使用 Q4_K_M |
openchat-3.5-1210.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,質量損失低,推薦使用 |
openchat-3.5-1210.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,質量損失非常低,推薦使用 |
openchat-3.5-1210.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,質量損失極低 |
openchat-3.5-1210.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,質量損失極低,不建議使用 |
注意:上述 RAM 數值假設沒有進行 GPU 卸載。若將部分層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
🔧 技術細節
本項目基於 OpenChat 的 Openchat 3.5 1210 模型,使用了多種數據集進行訓練,包括 openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection 等。模型採用了 mistral 架構,適用於文本生成任務。量化過程使用了多種量化方法,如 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K 等,以在不同場景下平衡模型大小和性能。
📄 許可證
本項目採用 apache-2.0 許可證。
其他信息
Discord
如需進一步支持或參與模型及 AI 相關討論,可加入 TheBloke AI 的 Discord 服務器。
感謝與貢獻
感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay。若你願意提供支持和貢獻,可通過以下方式:
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
捐贈者將獲得優先支持、訪問私人 Discord 房間等福利。
特別感謝 Aemon Algiz 以及眾多 Patreon 支持者。
再次感謝 a16z 的慷慨資助。



