模型简介
模型特点
模型能力
使用案例
🚀 Openchat 3.5 1210 - GGUF
Openchat 3.5 1210 - GGUF 是经过量化处理的模型文件,适用于多种客户端和库,可用于文本生成任务。它基于 OpenChat 的原始模型,在性能和兼容性上有良好表现。
🚀 快速开始
若你想使用 Openchat 3.5 1210 - GGUF 模型,可按以下步骤操作:
- 下载合适的量化文件。
- 依据自身需求,选择合适的客户端或库来运行模型。
✨ 主要特性
- 多兼容性:与 llama.cpp 及众多第三方 UI 和库兼容。
- 多种量化方法:提供多种量化方法,满足不同的使用场景和需求。
- 便捷下载:可通过多种方式下载量化文件,如使用特定客户端或命令行工具。
📦 安装指南
安装依赖库
若要使用命令行下载模型文件,需安装 huggingface-hub
Python 库:
pip3 install huggingface-hub
若想加速下载,可安装 hf_transfer
:
pip3 install hf_transfer
下载模型文件
可使用 huggingface-cli
下载单个模型文件:
huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
若要同时下载多个文件,可使用模式匹配:
huggingface-cli download TheBloke/openchat-3.5-1210-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
若安装了 hf_transfer
,可设置环境变量加速下载:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows 命令行用户可在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1
设置环境变量。
💻 使用示例
基础用法
llama.cpp 命令示例
确保使用的是 2023 年 8 月 27 日之后的 llama.cpp 版本(提交号 d0cee0d 及之后):
./main -ngl 35 -m openchat-3.5-1210.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:"
-ngl 35
:将 35 层模型加载到 GPU 上,若无 GPU 加速可移除该参数。-c 8192
:设置序列长度,更长的序列长度需要更多资源,可根据实际情况调整。- 若要进行聊天式对话,可将
-p <PROMPT>
参数替换为-i -ins
。
text-generation-webui 中使用
具体说明可参考 text-generation-webui 文档。
Python 代码中使用
使用 llama-cpp-python
库加载模型:
from llama_cpp import Llama
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
model_path="./openchat-3.5-1210.Q4_K_M.gguf", # Download the model file first
n_ctx=8192, # The max sequence length to use - note that longer sequence lengths require much more resources
n_threads=8, # The number of CPU threads to use, tailor to your system and the resulting performance
n_gpu_layers=35 # The number of layers to offload to GPU, if you have GPU acceleration available
)
# Simple inference example
output = llm(
"GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:", # Prompt
max_tokens=512, # Generate up to 512 tokens
stop=["</s>"], # Example stop token - not necessarily correct for this specific model! Please check before using.
echo=True # Whether to echo the prompt
)
# Chat Completion API
llm = Llama(model_path="./openchat-3.5-1210.Q4_K_M.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
高级用法
使用 LangChain
可参考以下指南使用 llama-cpp-python
和 ctransformers
与 LangChain 结合:
📚 详细文档
模型信息
属性 | 详情 |
---|---|
基础模型 | openchat/openchat-3.5-1210 |
数据集 | openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection、imone/OpenOrca_FLAN 等 |
推理 | false |
库名称 | transformers |
许可证 | apache-2.0 |
模型创建者 | OpenChat |
模型名称 | Openchat 3.5 1210 |
模型类型 | mistral |
任务类型 | 文本生成 |
提示模板 | GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant: |
量化者 | TheBloke |
标签 | openchat、mistral、C-RLFT |
提示模板
GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:
兼容性
这些量化的 GGUFv2 文件与 2023 年 8 月 27 日之后的 llama.cpp 兼容(提交号 d0cee0d),也与许多第三方 UI 和库兼容,具体列表可查看文档开头部分。
量化方法说明
点击查看详情
新的量化方法如下:
- GGML_TYPE_Q2_K - “type-1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块的缩放和最小值用 4 位量化,最终每个权重有效使用 2.5625 位。
- GGML_TYPE_Q3_K - “type-0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。缩放用 6 位量化,最终每个权重使用 3.4375 位。
- GGML_TYPE_Q4_K - “type-1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。缩放和最小值用 6 位量化,最终每个权重使用 4.5 位。
- GGML_TYPE_Q5_K - “type-1” 5 位量化,超级块结构与 GGML_TYPE_Q4_K 相同,最终每个权重使用 5.5 位。
- GGML_TYPE_Q6_K - “type-0” 6 位量化,超级块有 16 个块,每个块有 16 个权重。缩放用 8 位量化,最终每个权重使用 6.5625 位。
具体文件使用的量化方法可参考下面的“提供的文件”表格。
提供的文件
名称 | 量化方法 | 位数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
openchat-3.5-1210.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,质量损失显著,不建议大多数场景使用 |
openchat-3.5-1210.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,质量损失高 |
openchat-3.5-1210.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,质量损失高 |
openchat-3.5-1210.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,质量损失较大 |
openchat-3.5-1210.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 旧版本,小,质量损失非常高,建议使用 Q3_K_M |
openchat-3.5-1210.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,质量损失较大 |
openchat-3.5-1210.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,质量平衡,推荐使用 |
openchat-3.5-1210.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 旧版本,中等,质量平衡,建议使用 Q4_K_M |
openchat-3.5-1210.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,质量损失低,推荐使用 |
openchat-3.5-1210.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,质量损失非常低,推荐使用 |
openchat-3.5-1210.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,质量损失极低 |
openchat-3.5-1210.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,质量损失极低,不建议使用 |
注意:上述 RAM 数值假设没有进行 GPU 卸载。若将部分层卸载到 GPU,将减少 RAM 使用并使用 VRAM。
🔧 技术细节
本项目基于 OpenChat 的 Openchat 3.5 1210 模型,使用了多种数据集进行训练,包括 openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection 等。模型采用了 mistral 架构,适用于文本生成任务。量化过程使用了多种量化方法,如 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K 等,以在不同场景下平衡模型大小和性能。
📄 许可证
本项目采用 apache-2.0 许可证。
其他信息
Discord
如需进一步支持或参与模型及 AI 相关讨论,可加入 TheBloke AI 的 Discord 服务器。
感谢与贡献
感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay。若你愿意提供支持和贡献,可通过以下方式:
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
捐赠者将获得优先支持、访问私人 Discord 房间等福利。
特别感谢 Aemon Algiz 以及众多 Patreon 支持者。
再次感谢 a16z 的慷慨资助。



