Openchat 3.5 1210 - GGUF開源文本生成模型，多客戶端適用，性能兼容佳！

首頁

Openchat 3.5 1210 GGUF

由TheBloke開發

Openchat 3.5 1210 - GGUF 是經過量化處理的模型文件，適用於多種客戶端和庫，可用於文本生成任務。它基於 OpenChat 的原始模型，在性能和兼容性上有良好表現。

大型語言模型

Transformers

開源協議:Apache-2.0 #多量化兼容 #長序列生成 #對話優化

下載量 2,638

發布時間 : 12/14/2023

模型概述

這是一個基於 Mistral 架構的量化語言模型，專為文本生成任務優化，支持多種量化方法以適應不同硬件需求。

模型特點

多兼容性

與 llama.cpp 及眾多第三方 UI 和庫兼容，便於集成到不同平臺。

多種量化方法

提供從 2 位到 8 位的多種量化選項，滿足不同場景下的性能和精度需求。

高效推理

支持 GPU 加速（最高可卸載 35 層到 GPU），優化推理速度。

模型能力

文本生成

對話式交互

故事創作

指令跟隨

使用案例

創意寫作

故事生成

根據用戶提示生成連貫的故事情節。

可生成包含角色、情節和對話的完整故事

對話系統

智能助手

模擬 GPT-4 風格的對話交互。

支持多輪對話，響應符合 GPT4 Correct 格式

🚀 Openchat 3.5 1210 - GGUF

🚀 快速開始

若你想使用 Openchat 3.5 1210 - GGUF 模型，可按以下步驟操作：

下載合適的量化文件。
依據自身需求，選擇合適的客戶端或庫來運行模型。

✨ 主要特性

多兼容性：與 llama.cpp 及眾多第三方 UI 和庫兼容。
多種量化方法：提供多種量化方法，滿足不同的使用場景和需求。
便捷下載：可通過多種方式下載量化文件，如使用特定客戶端或命令行工具。

📦 安裝指南

安裝依賴庫

若要使用命令行下載模型文件，需安裝 huggingface-hub Python 庫：

pip3 install huggingface-hub

若想加速下載，可安裝 hf_transfer：

pip3 install hf_transfer

下載模型文件

可使用 huggingface-cli 下載單個模型文件：

huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

若要同時下載多個文件，可使用模式匹配：

huggingface-cli download TheBloke/openchat-3.5-1210-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

若安裝了 hf_transfer，可設置環境變量加速下載：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/openchat-3.5-1210-GGUF openchat-3.5-1210.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用戶可在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1 設置環境變量。

💻 使用示例

基礎用法

llama.cpp 命令示例

確保使用的是 2023 年 8 月 27 日之後的 llama.cpp 版本（提交號 d0cee0d 及之後）：

./main -ngl 35 -m openchat-3.5-1210.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:"

-ngl 35：將 35 層模型加載到 GPU 上，若無 GPU 加速可移除該參數。
-c 8192：設置序列長度，更長的序列長度需要更多資源，可根據實際情況調整。
若要進行聊天式對話，可將 -p <PROMPT> 參數替換為 -i -ins。

text-generation-webui 中使用

具體說明可參考 text-generation-webui 文檔。

Python 代碼中使用

使用 llama-cpp-python 庫加載模型：

from llama_cpp import Llama

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
  model_path="./openchat-3.5-1210.Q4_K_M.gguf",  # Download the model file first
  n_ctx=8192,  # The max sequence length to use - note that longer sequence lengths require much more resources
  n_threads=8,            # The number of CPU threads to use, tailor to your system and the resulting performance
  n_gpu_layers=35         # The number of layers to offload to GPU, if you have GPU acceleration available
)

# Simple inference example
output = llm(
  "GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:", # Prompt
  max_tokens=512,  # Generate up to 512 tokens
  stop=["</s>"],   # Example stop token - not necessarily correct for this specific model! Please check before using.
  echo=True        # Whether to echo the prompt
)

# Chat Completion API

llm = Llama(model_path="./openchat-3.5-1210.Q4_K_M.gguf", chat_format="llama-2")  # Set chat_format according to the model you are using
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

高級用法

使用 LangChain

可參考以下指南使用 llama-cpp-python 和 ctransformers 與 LangChain 結合：

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	openchat/openchat-3.5-1210
數據集	openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection、imone/OpenOrca_FLAN 等
推理	false
庫名稱	transformers
許可證	apache-2.0
模型創建者	OpenChat
模型名稱	Openchat 3.5 1210
模型類型	mistral
任務類型	文本生成
提示模板	GPT4 Correct User: {prompt}<\|end_of_turn\|>GPT4 Correct Assistant:
量化者	TheBloke
標籤	openchat、mistral、C-RLFT

提示模板

GPT4 Correct User: {prompt}<|end_of_turn|>GPT4 Correct Assistant:

兼容性

這些量化的 GGUFv2 文件與 2023 年 8 月 27 日之後的 llama.cpp 兼容（提交號 d0cee0d），也與許多第三方 UI 和庫兼容，具體列表可查看文檔開頭部分。

量化方法說明

點擊查看詳情

新的量化方法如下：

GGML_TYPE_Q2_K - “type-1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的縮放和最小值用 4 位量化，最終每個權重有效使用 2.5625 位。
GGML_TYPE_Q3_K - “type-0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。縮放用 6 位量化，最終每個權重使用 3.4375 位。
GGML_TYPE_Q4_K - “type-1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。縮放和最小值用 6 位量化，最終每個權重使用 4.5 位。
GGML_TYPE_Q5_K - “type-1” 5 位量化，超級塊結構與 GGML_TYPE_Q4_K 相同，最終每個權重使用 5.5 位。
GGML_TYPE_Q6_K - “type-0” 6 位量化，超級塊有 16 個塊，每個塊有 16 個權重。縮放用 8 位量化，最終每個權重使用 6.5625 位。

具體文件使用的量化方法可參考下面的“提供的文件”表格。

提供的文件

名稱	量化方法	位數	大小	所需最大 RAM	使用場景
openchat-3.5-1210.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，質量損失顯著，不建議大多數場景使用
openchat-3.5-1210.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，質量損失高
openchat-3.5-1210.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，質量損失高
openchat-3.5-1210.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，質量損失較大
openchat-3.5-1210.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	舊版本，小，質量損失非常高，建議使用 Q3_K_M
openchat-3.5-1210.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，質量損失較大
openchat-3.5-1210.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，質量平衡，推薦使用
openchat-3.5-1210.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	舊版本，中等，質量平衡，建議使用 Q4_K_M
openchat-3.5-1210.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，質量損失低，推薦使用
openchat-3.5-1210.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，質量損失非常低，推薦使用
openchat-3.5-1210.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，質量損失極低
openchat-3.5-1210.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，質量損失極低，不建議使用

注意：上述 RAM 數值假設沒有進行 GPU 卸載。若將部分層卸載到 GPU，將減少 RAM 使用並使用 VRAM。

🔧 技術細節

本項目基於 OpenChat 的 Openchat 3.5 1210 模型，使用了多種數據集進行訓練，包括 openchat/openchat_sharegpt4_dataset、kaist-ai/Feedback-Collection 等。模型採用了 mistral 架構，適用於文本生成任務。量化過程使用了多種量化方法，如 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K 等，以在不同場景下平衡模型大小和性能。