模型概述
模型特點
模型能力
使用案例
🚀 獵戶星空易 34B 聊天 Llama - GGUF
本項目提供了獵戶星空易 34B 聊天 Llama 模型的 GGUF 格式文件,可用於文本生成任務,為大模型社區用戶提供出色的交互體驗。
🚀 快速開始
下載 GGUF 文件
- 自動下載:LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫可自動下載模型,並提供可用模型列表供選擇。
- text-generation-webui 下載:在“Download Model”中輸入模型倉庫地址
TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF
,並指定要下載的文件名,如orionstar-yi-34b-chat-llama.Q4_K_M.gguf
,然後點擊“Download”。 - 命令行下載:推薦使用
huggingface-hub
Python 庫,示例命令如下:
pip3 install huggingface-hub
huggingface-cli download TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF orionstar-yi-34b-chat-llama.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
運行模型
llama.cpp 命令示例
確保使用的是 d0cee0d 或更新版本的 llama.cpp
。示例命令如下:
./main -ngl 32 -m orionstar-yi-34b-chat-llama.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Human: {prompt}\n\nAssistant:"
參數說明:
-ngl 32
:指定要卸載到 GPU 的層數,若無 GPU 加速可移除該參數。-c 2048
:指定所需的序列長度。- 若要進行聊天式對話,將
-p <PROMPT>
參數替換為-i -ins
。
text-generation-webui 運行方法
更多說明可參考 text-generation-webui 文檔。
Python 代碼運行方法
可使用 llama-cpp-python 或 ctransformers 庫從 Python 中使用 GGUF 模型。
以 ctransformers
為例:
# 無 GPU 加速的基礎 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速(僅適用於 Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 Metal GPU 加速(僅適用於 macOS 系統)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
示例代碼:
from ctransformers import AutoModelForCausalLM
# 設置要卸載到 GPU 的層數。若系統無 GPU 加速,設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)
print(llm("AI is going to"))
✨ 主要特性
- GGUF 格式:由 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式,取代不再受 llama.cpp 支持的 GGML 格式。
- 多客戶端支持:眾多客戶端和庫支持 GGUF 格式,如 llama.cpp、text-generation-webui、KoboldCpp 等。
- 多量化模型可選:提供多種量化方法和比特數的模型文件,可根據不同需求選擇。
- 高性能表現:基於獵戶星空易 34B 聊天 Llama 模型,在多個通用領域數據集上表現出色。
📦 安裝指南
安裝依賴庫
pip3 install huggingface-hub
若要加速下載,可安裝 hf_transfer
:
pip3 install hf_transfer
💻 使用示例
基礎用法
from ctransformers import AutoModelForCausalLM
# 設置要卸載到 GPU 的層數。若系統無 GPU 加速,設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)
print(llm("你好!"))
高級用法
from ctransformers import AutoModelForCausalLM
# 設置要卸載到 GPU 的層數。若系統無 GPU 加速,設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)
prompt = "請介紹一下人工智能的發展歷程。"
response = llm(prompt)
print(response)
📚 詳細文檔
關於 GGUF
GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式,用於取代不再受 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客戶端和庫:
- llama.cpp:GGUF 的源項目,提供 CLI 和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持跨所有平臺和 GPU 架構的 GPU 加速,特別適合講故事。
- LM Studio:適用於 Windows 和 macOS(Silicon)的易於使用且功能強大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
- llama-cpp-python:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個 Rust ML 框架,注重性能,包括 GPU 支持和易用性。
可用倉庫
- 用於 GPU 推理的 AWQ 模型
- 用於 GPU 推理的 GPTQ 模型,具有多種量化參數選項
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- 獵戶星空原始未量化的 fp16 格式 PyTorch 模型,用於 GPU 推理和進一步轉換
提示模板
Human: {prompt}
Assistant:
兼容性
這些量化的 GGUFv2 文件與 2023 年 8 月 27 日及以後的 llama.cpp 兼容,對應提交版本為 d0cee0d。同時,它們也與許多第三方 UI 和庫兼容。
量化方法說明
點擊查看詳情
新的量化方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的縮放和最小值用 4 位量化,最終每個權重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。縮放用 6 位量化,最終使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。縮放和最小值用 6 位量化,最終使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化,與 GGML_TYPE_Q4_K 具有相同的超級塊結構,最終使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化,超級塊有 16 個塊,每個塊有 16 個權重。縮放用 8 位量化,最終使用 6.5625 bpw。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法。
提供的文件
名稱 | 量化方法 | 比特數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
orionstar-yi-34b-chat-llama.Q2_K.gguf | Q2_K | 2 | 14.56 GB | 17.06 GB | 最小,但質量損失顯著,不建議用於大多數場景 |
orionstar-yi-34b-chat-llama.Q3_K_S.gguf | Q3_K_S | 3 | 14.96 GB | 17.46 GB | 非常小,但質量損失高 |
orionstar-yi-34b-chat-llama.Q3_K_M.gguf | Q3_K_M | 3 | 16.64 GB | 19.14 GB | 非常小,但質量損失高 |
orionstar-yi-34b-chat-llama.Q3_K_L.gguf | Q3_K_L | 3 | 18.14 GB | 20.64 GB | 小,但質量損失較大 |
orionstar-yi-34b-chat-llama.Q4_0.gguf | Q4_0 | 4 | 19.47 GB | 21.97 GB | 舊版本;小,但質量損失非常高,建議使用 Q3_K_M |
orionstar-yi-34b-chat-llama.Q4_K_S.gguf | Q4_K_S | 4 | 19.54 GB | 22.04 GB | 小,但質量損失較大 |
orionstar-yi-34b-chat-llama.Q4_K_M.gguf | Q4_K_M | 4 | 20.66 GB | 23.16 GB | 中等,質量平衡,推薦使用 |
orionstar-yi-34b-chat-llama.Q5_0.gguf | Q5_0 | 5 | 23.71 GB | 26.21 GB | 舊版本;中等,質量平衡,建議使用 Q4_K_M |
orionstar-yi-34b-chat-llama.Q5_K_S.gguf | Q5_K_S | 5 | 23.71 GB | 26.21 GB | 大,質量損失低,推薦使用 |
orionstar-yi-34b-chat-llama.Q5_K_M.gguf | Q5_K_M | 5 | 24.32 GB | 26.82 GB | 大,質量損失非常低,推薦使用 |
orionstar-yi-34b-chat-llama.Q6_K.gguf | Q6_K | 6 | 28.21 GB | 30.71 GB | 非常大,質量損失極低 |
orionstar-yi-34b-chat-llama.Q8_0.gguf | Q8_0 | 8 | 36.54 GB | 39.04 GB | 非常大,質量損失極低,不建議使用 |
注意:上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
🔧 技術細節
模型評估結果
使用 opencompass 在以下通用領域數據集上進行 5 次測試,其他模型的評估結果取自 opencompass 排行榜。
模型 | C-Eval | MMLU | CMMLU |
---|---|---|---|
GPT-4 | 69.9 | 83 | 71 |
ChatGPT | 52.5 | 69.1 | 53.9 |
Claude-1 | 52 | 65.7 | - |
TigerBot-70B-Chat-V2 | 57.7 | 65.9 | 59.9 |
WeMix-LLaMA2-70B | 55.2 | 71.3 | 56 |
LLaMA-2-70B-Chat | 44.3 | 63.8 | 43.3 |
Qwen-14B-Chat | 71.7 | 66.4 | 70 |
百川 2-13B-Chat | 56.7 | 57 | 58.4 |
獵戶星空易 34B 聊天 | 77.71 | 78.32 | 73.52 |
📄 許可證
本模型遵循 Yi 許可證,可完全用於學術研究,但請遵守相關協議。
其他信息
Discord
如需進一步支持,或參與模型和 AI 相關討論,可加入 TheBloke AI 的 Discord 服務器。
感謝與貢獻
感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay!
如果您願意貢獻,將非常感激,這將幫助提供更多模型並開展新的 AI 項目。捐贈者將在所有 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間等福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Brandon Frisco、LangChain4j 等眾多個人和組織。
感謝所有慷慨的贊助者和捐贈者!再次感謝 a16z 的慷慨資助。



