Openchat 3.5 1210 - GGUF开源文本生成模型，多客户端适用，性能兼容佳！

首页

Openchat 3.5 1210 GGUF

由 TheBloke 开发

Openchat 3.5 1210 - GGUF 是经过量化处理的模型文件，适用于多种客户端和库，可用于文本生成任务。它基于 OpenChat 的原始模型，在性能和兼容性上有良好表现。

大型语言模型

Transformers

开源协议:Apache-2.0 #多量化兼容 #长序列生成 #对话优化

下载量 2,638

发布时间 : 12/14/2023

模型简介

这是一个基于 Mistral 架构的量化语言模型，专为文本生成任务优化，支持多种量化方法以适应不同硬件需求。

模型特点

多兼容性

与 llama.cpp 及众多第三方 UI 和库兼容，便于集成到不同平台。

多种量化方法

提供从 2 位到 8 位的多种量化选项，满足不同场景下的性能和精度需求。

高效推理

支持 GPU 加速（最高可卸载 35 层到 GPU），优化推理速度。

模型能力

文本生成

对话式交互

故事创作

指令跟随

使用案例

创意写作

故事生成

根据用户提示生成连贯的故事情节。

可生成包含角色、情节和对话的完整故事

对话系统

智能助手

模拟 GPT-4 风格的对话交互。

支持多轮对话，响应符合 GPT4 Correct 格式

🚀 Openchat 3.5 1210 - GGUF

🚀 快速开始

若你想使用 Openchat 3.5 1210 - GGUF 模型，可按以下步骤操作：

下载合适的量化文件。
依据自身需求，选择合适的客户端或库来运行模型。

✨ 主要特性

多兼容性：与 llama.cpp 及众多第三方 UI 和库兼容。
多种量化方法：提供多种量化方法，满足不同的使用场景和需求。
便捷下载：可通过多种方式下载量化文件，如使用特定客户端或命令行工具。

📦 安装指南

安装依赖库

若要使用命令行下载模型文件，需安装 huggingface-hub Python 库：

pip3 install huggingface-hub

若想加速下载，可安装 hf_transfer：

pip3 install hf_transfer

下载模型文件

可使用 huggingface-cli 下载单个模型文件：

huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要同时下载多个文件，可使用模式匹配：

huggingface-cli download TheBloke/openchat-3.5-1210-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

若安装了 hf_transfer，可设置环境变量加速下载：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用户可在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 设置环境变量。

💻 使用示例

基础用法

llama.cpp 命令示例

确保使用的是 2023 年 8 月 27 日之后的 llama.cpp 版本（提交号 d0cee0d 及之后）：

./main -ngl 35 -m openchat-3.5-1210.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:"

-ngl 35：将 35 层模型加载到 GPU 上，若无 GPU 加速可移除该参数。
-c 8192：设置序列长度，更长的序列长度需要更多资源，可根据实际情况调整。
若要进行聊天式对话，可将 -p <PROMPT> 参数替换为 -i -ins。

text-generation-webui 中使用

具体说明可参考 text-generation-webui 文档。

Python 代码中使用

使用 llama-cpp-python 库加载模型：

from llama_cpp import Llama

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
  model_path="./openchat-3.5-1210.Q4_K_M.gguf",  # Download the model file first
  n_ctx=8192,  # The max sequence length to use - note that longer sequence lengths require much more resources
  n_threads=8,            # The number of CPU threads to use, tailor to your system and the resulting performance
  n_gpu_layers=35         # The number of layers to offload to GPU, if you have GPU acceleration available
)

# Simple inference example
output = llm(
  "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:", # Prompt
  max_tokens=512,  # Generate up to 512 tokens
  stop=["</s>"],   # Example stop token - not necessarily correct for this specific model! Please check before using.
  echo=True        # Whether to echo the prompt
)

# Chat Completion API

llm = Llama(model_path="./openchat-3.5-1210.Q4_K_M.gguf", chat_format="llama-2")  # Set chat_format according to the model you are using
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

高级用法

使用 LangChain

可参考以下指南使用 llama-cpp-python 和 ctransformers 与 LangChain 结合：

📚 详细文档

模型信息

属性	详情
基础模型	openchat/openchat-3.5-1210
数据集	openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection、imone/OpenOrca_FLAN 等
推理	false
库名称	transformers
许可证	apache-2.0
模型创建者	OpenChat
模型名称	Openchat 3.5 1210
模型类型	mistral
任务类型	文本生成
提示模板	GPT4 Correct User: {prompt}<\|end_of_turn\|>GPT4 Correct Assistant:
量化者	TheBloke
标签	openchat、mistral、C-RLFT

提示模板

GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:

兼容性

这些量化的 GGUFv2 文件与 2023 年 8 月 27 日之后的 llama.cpp 兼容（提交号 d0cee0d），也与许多第三方 UI 和库兼容，具体列表可查看文档开头部分。

量化方法说明

点击查看详情

新的量化方法如下：

GGML_TYPE_Q2_K - “type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的缩放和最小值用 4 位量化，最终每个权重有效使用 2.5625 位。
GGML_TYPE_Q3_K - “type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放用 6 位量化，最终每个权重使用 3.4375 位。
GGML_TYPE_Q4_K - “type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。缩放和最小值用 6 位量化，最终每个权重使用 4.5 位。
GGML_TYPE_Q5_K - “type-1” 5 位量化，超级块结构与 GGML_TYPE_Q4_K 相同，最终每个权重使用 5.5 位。
GGML_TYPE_Q6_K - “type-0” 6 位量化，超级块有 16 个块，每个块有 16 个权重。缩放用 8 位量化，最终每个权重使用 6.5625 位。

具体文件使用的量化方法可参考下面的“提供的文件”表格。

提供的文件

名称	量化方法	位数	大小	所需最大 RAM	使用场景
openchat-3.5-1210.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，质量损失显著，不建议大多数场景使用
openchat-3.5-1210.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，质量损失高
openchat-3.5-1210.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，质量损失高
openchat-3.5-1210.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，质量损失较大
openchat-3.5-1210.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	旧版本，小，质量损失非常高，建议使用 Q3_K_M
openchat-3.5-1210.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，质量损失较大
openchat-3.5-1210.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，质量平衡，推荐使用
openchat-3.5-1210.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	旧版本，中等，质量平衡，建议使用 Q4_K_M
openchat-3.5-1210.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，质量损失低，推荐使用
openchat-3.5-1210.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，质量损失非常低，推荐使用
openchat-3.5-1210.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，质量损失极低
openchat-3.5-1210.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，质量损失极低，不建议使用

注意：上述 RAM 数值假设没有进行 GPU 卸载。若将部分层卸载到 GPU，将减少 RAM 使用并使用 VRAM。

🔧 技术细节

本项目基于 OpenChat 的 Openchat 3.5 1210 模型，使用了多种数据集进行训练，包括 openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection 等。模型采用了 mistral 架构，适用于文本生成任务。量化过程使用了多种量化方法，如 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K 等，以在不同场景下平衡模型大小和性能。