OrionStar-Yi-34B-Chat-Llama-GGUF開源大模型 - 免費部署助力高效中文對話

首頁

Orionstar Yi 34B Chat Llama GGUF

由TheBloke開發

OrionStar Yi 34B Chat Llama 是一個基於 Yi 34B 架構的大型語言模型，專注於中文對話任務。

大型語言模型其他開源協議:其他 #大語言模型 #中文對話 #34B參數

下載量 557

發布時間 : 11/22/2023

模型概述

該模型是一個34B參數的大型語言模型，基於Yi架構，專為中文對話場景優化。它採用了Llama格式，支持文本生成任務。

模型特點

大參數規模

34B參數的模型規模，提供強大的語言理解和生成能力

中文優化

專門針對中文對話場景進行優化

Llama兼容格式

採用Llama格式，便於在多種支持Llama的平臺上使用

模型能力

中文文本生成

對話系統

上下文理解

使用案例

對話系統

智能客服

用於構建中文智能客服系統

能夠理解用戶問題並生成自然流暢的回覆

個人助手

作為個人數字助手使用

能夠完成日常問答、信息查詢等任務

🚀 獵戶星空易 34B 聊天 Llama - GGUF

本項目提供了獵戶星空易 34B 聊天 Llama 模型的 GGUF 格式文件，可用於文本生成任務，為大模型社區用戶提供出色的交互體驗。

🚀 快速開始

下載 GGUF 文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫可自動下載模型，並提供可用模型列表供選擇。
text-generation-webui 下載：在“Download Model”中輸入模型倉庫地址 TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF，並指定要下載的文件名，如 orionstar-yi-34b-chat-llama.Q4_K_M.gguf，然後點擊“Download”。
命令行下載：推薦使用 huggingface-hub Python 庫，示例命令如下：

pip3 install huggingface-hub
huggingface-cli download TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF orionstar-yi-34b-chat-llama.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

運行模型

llama.cpp 命令示例

確保使用的是 d0cee0d 或更新版本的 llama.cpp。示例命令如下：

./main -ngl 32 -m orionstar-yi-34b-chat-llama.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Human: {prompt}\n\nAssistant:"

參數說明：

-ngl 32：指定要卸載到 GPU 的層數，若無 GPU 加速可移除該參數。
-c 2048：指定所需的序列長度。
若要進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。

text-generation-webui 運行方法

更多說明可參考 text-generation-webui 文檔。

Python 代碼運行方法

可使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。以 ctransformers 為例：

# 無 GPU 加速的基礎 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速（僅適用於 Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 Metal GPU 加速（僅適用於 macOS 系統）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

示例代碼：

from ctransformers import AutoModelForCausalLM

# 設置要卸載到 GPU 的層數。若系統無 GPU 加速，設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

print(llm("AI is going to"))

✨ 主要特性

GGUF 格式：由 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式，取代不再受 llama.cpp 支持的 GGML 格式。
多客戶端支持：眾多客戶端和庫支持 GGUF 格式，如 llama.cpp、text-generation-webui、KoboldCpp 等。
多量化模型可選：提供多種量化方法和比特數的模型文件，可根據不同需求選擇。
高性能表現：基於獵戶星空易 34B 聊天 Llama 模型，在多個通用領域數據集上表現出色。

📦 安裝指南

安裝依賴庫

pip3 install huggingface-hub

若要加速下載，可安裝 hf_transfer：

pip3 install hf_transfer

💻 使用示例

基礎用法

from ctransformers import AutoModelForCausalLM

# 設置要卸載到 GPU 的層數。若系統無 GPU 加速，設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

print(llm("你好！"))

高級用法

from ctransformers import AutoModelForCausalLM

# 設置要卸載到 GPU 的層數。若系統無 GPU 加速，設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

prompt = "請介紹一下人工智能的發展歷程。"
response = llm(prompt)
print(response)

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式，用於取代不再受 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客戶端和庫：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個 Rust ML 框架，注重性能，包括 GPU 支持和易用性。

可用倉庫

提示模板

Human: {prompt}

Assistant:

兼容性

這些量化的 GGUFv2 文件與 2023 年 8 月 27 日及以後的 llama.cpp 兼容，對應提交版本為 d0cee0d。同時，它們也與許多第三方 UI 和庫兼容。

量化方法說明

點擊查看詳情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的縮放和最小值用 4 位量化，最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。縮放用 6 位量化，最終使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。縮放和最小值用 6 位量化，最終使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化，與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化，超級塊有 16 個塊，每個塊有 16 個權重。縮放用 8 位量化，最終使用 6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法。

提供的文件

名稱	量化方法	比特數	大小	所需最大 RAM	使用場景
orionstar-yi-34b-chat-llama.Q2_K.gguf	Q2_K	2	14.56 GB	17.06 GB	最小，但質量損失顯著，不建議用於大多數場景
orionstar-yi-34b-chat-llama.Q3_K_S.gguf	Q3_K_S	3	14.96 GB	17.46 GB	非常小，但質量損失高
orionstar-yi-34b-chat-llama.Q3_K_M.gguf	Q3_K_M	3	16.64 GB	19.14 GB	非常小，但質量損失高
orionstar-yi-34b-chat-llama.Q3_K_L.gguf	Q3_K_L	3	18.14 GB	20.64 GB	小，但質量損失較大
orionstar-yi-34b-chat-llama.Q4_0.gguf	Q4_0	4	19.47 GB	21.97 GB	舊版本；小，但質量損失非常高，建議使用 Q3_K_M
orionstar-yi-34b-chat-llama.Q4_K_S.gguf	Q4_K_S	4	19.54 GB	22.04 GB	小，但質量損失較大
orionstar-yi-34b-chat-llama.Q4_K_M.gguf	Q4_K_M	4	20.66 GB	23.16 GB	中等，質量平衡，推薦使用
orionstar-yi-34b-chat-llama.Q5_0.gguf	Q5_0	5	23.71 GB	26.21 GB	舊版本；中等，質量平衡，建議使用 Q4_K_M
orionstar-yi-34b-chat-llama.Q5_K_S.gguf	Q5_K_S	5	23.71 GB	26.21 GB	大，質量損失低，推薦使用
orionstar-yi-34b-chat-llama.Q5_K_M.gguf	Q5_K_M	5	24.32 GB	26.82 GB	大，質量損失非常低，推薦使用
orionstar-yi-34b-chat-llama.Q6_K.gguf	Q6_K	6	28.21 GB	30.71 GB	非常大，質量損失極低
orionstar-yi-34b-chat-llama.Q8_0.gguf	Q8_0	8	36.54 GB	39.04 GB	非常大，質量損失極低，不建議使用

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，將減少 RAM 使用並使用 VRAM。

🔧 技術細節

模型評估結果

使用 opencompass 在以下通用領域數據集上進行 5 次測試，其他模型的評估結果取自 opencompass 排行榜。

模型	C-Eval	MMLU	CMMLU
GPT-4	69.9	83	71
ChatGPT	52.5	69.1	53.9
Claude-1	52	65.7	-
TigerBot-70B-Chat-V2	57.7	65.9	59.9
WeMix-LLaMA2-70B	55.2	71.3	56
LLaMA-2-70B-Chat	44.3	63.8	43.3
Qwen-14B-Chat	71.7	66.4	70
百川 2-13B-Chat	56.7	57	58.4
獵戶星空易 34B 聊天	77.71	78.32	73.52