模型概述
模型特點
模型能力
使用案例
🚀 Orca 2 13B - GGUF
Orca 2 13B - GGUF 項目提供了微軟 Orca 2 13B 模型的 GGUF 格式文件,方便用戶進行推理和研究。該項目支持多種量化方法和文件,適用於不同的硬件環境和使用場景。
🚀 快速開始
下載 GGUF 文件
- 自動下載:LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動下載模型,並提供可用模型列表供用戶選擇。
- text - generation - webui 下載:在 Download Model 中輸入模型倉庫地址 TheBloke/Orca - 2 - 13B - GGUF,然後輸入具體文件名(如 orca - 2 - 13b.Q4_K_M.gguf),點擊 Download。
- 命令行下載:推薦使用
huggingface - hub
Python 庫。
pip3 install huggingface - hub
huggingface - cli download TheBloke/Orca - 2 - 13B - GGUF orca - 2 - 13b.Q4_K_M.gguf --local - dir. --local - dir - use - symlinks False
運行示例
llama.cpp 命令示例
確保使用的是 2023 年 8 月 27 日之後的 llama.cpp 版本(提交號 d0cee0d 及以後)。
./main -ngl 32 -m orca - 2 - 13b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
-ngl 32
:設置要卸載到 GPU 的層數,若無 GPU 加速可移除該參數。-c 4096
:設置所需的序列長度。對於擴展序列模型(如 8K、16K、32K),必要的 RoPE 縮放參數會從 GGUF 文件中讀取並由 llama.cpp 自動設置。- 若要進行聊天式對話,將
-p <PROMPT>
參數替換為-i -ins
。
在 text - generation - webui 中運行
更多說明可參考 text - generation - webui 文檔:[text - generation - webui/docs/04 ‐ Model Tab.md](https://github.com/oobabooga/text - generation - webui/blob/main/docs/04%20%E2%80%90%20Model%20Tab.md#llamacpp)。
從 Python 代碼運行
可使用 [llama - cpp - python](https://github.com/abetlen/llama - cpp - python) 或 ctransformers 庫從 Python 中使用 GGUF 模型。
from ctransformers import AutoModelForCausalLM
# 設置 gpu_layers 為要卸載到 GPU 的層數。若系統無 GPU 加速,設置為 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Orca - 2 - 13B - GGUF", model_file="orca - 2 - 13b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
與 LangChain 一起使用
✨ 主要特性
- 多種量化方法:支持 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K、GGML_TYPE_Q4_K 等多種量化方法,滿足不同的精度和性能需求。
- 廣泛的兼容性:與 llama.cpp 及許多第三方 UI 和庫兼容,方便用戶在不同環境中使用。
- 多平臺支持:可在 CPU + GPU 環境下運行,支持多種操作系統和硬件架構。
📦 安裝指南
安裝依賴庫
pip3 install huggingface - hub
若要加速下載(高速連接,1Gbit/s 或更高),可安裝 hf_transfer
:
pip3 install hf_transfer
並設置環境變量:
HF_HUB_ENABLE_HF_TRANSFER = 1
Windows 命令行用戶可在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER = 1
。
安裝 ctransformers
根據系統選擇以下命令之一:
# 無 GPU 加速的基礎 ctransformers
pip install ctransformers
# 帶 CUDA GPU 加速
pip install ctransformers[cuda]
# 帶 AMD ROCm GPU 加速(僅 Linux)
CT_HIPBLAS = 1 pip install ctransformers --no - binary ctransformers
# 帶 Metal GPU 加速(僅 macOS 系統)
CT_METAL = 1 pip install ctransformers --no - binary ctransformers
💻 使用示例
基礎用法
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Orca - 2 - 13B - GGUF", model_file="orca - 2 - 13b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高級用法
在更復雜的場景中,可結合 LangChain 等工具,實現更強大的功能。具體使用方法可參考 LangChain + llama - cpp - python 和 LangChain + ctransformers。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型創建者 | Microsoft |
原始模型 | [Orca 2 13B](https://huggingface.co/microsoft/Orca - 2 - 13b) |
模型類型 | llama |
管道標籤 | text - generation |
提示模板 | `< |
量化者 | TheBloke |
標籤 | orca, orca2, microsoft |
關於 GGUF
GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的新格式,用於替代不再受 llama.cpp 支持的 GGML。以下是已知支持 GGUF 的客戶端和庫:
- llama.cpp:GGUF 的源項目,提供 CLI 和服務器選項。
- [text - generation - webui](https://github.com/oobabooga/text - generation - webui):最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持跨所有平臺和 GPU 架構的 GPU 加速,尤其適合講故事。
- LM Studio:適用於 Windows 和 macOS(Silicon)的易於使用且功能強大的本地 GUI,支持 GPU 加速。
- [LoLLMS Web UI](https://github.com/ParisNeo/lollms - webui):一個很棒的 Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- ctransformers:一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服務器的 Python 庫。
- [llama - cpp - python](https://github.com/abetlen/llama - cpp - python):一個支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個專注於性能的 Rust ML 框架,包括 GPU 支持和易用性。
可用倉庫
- [用於 GPU 推理的 AWQ 模型](https://huggingface.co/TheBloke/Orca - 2 - 13B - AWQ)
- [用於 GPU 推理的 GPTQ 模型,具有多個量化參數選項](https://huggingface.co/TheBloke/Orca - 2 - 13B - GPTQ)
- [用於 CPU + GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF)
- [微軟原始未量化的 fp16 模型(pytorch 格式),用於 GPU 推理和進一步轉換](https://huggingface.co/microsoft/Orca - 2 - 13b)
提示模板:ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
兼容性
這些量化的 GGUFv2 文件與 2023 年 8 月 27 日之後的 llama.cpp 兼容(提交號 d0cee0d)。它們也與許多第三方 UI 和庫兼容,具體請見本 README 開頭的列表。
量化方法說明
點擊查看詳情
新的量化方法如下:
- GGML_TYPE_Q2_K:“type - 1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的縮放和最小值用 4 位量化,最終每個權重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type - 0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。縮放用 6 位量化,最終使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type - 1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。縮放和最小值用 6 位量化,最終使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type - 1” 5 位量化,與 GGML_TYPE_Q4_K 具有相同的超級塊結構,最終使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type - 0” 6 位量化,超級塊有 16 個塊,每個塊有 16 個權重。縮放用 8 位量化,最終使用 6.5625 bpw。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
[orca - 2 - 13b.Q2_K.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q2_K.gguf) | Q2_K | 2 | 5.43 GB | 7.93 GB | 最小,但質量損失顯著,不建議用於大多數場景 |
[orca - 2 - 13b.Q3_K_S.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q3_K_S.gguf) | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常小,但質量損失高 |
[orca - 2 - 13b.Q3_K_M.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q3_K_M.gguf) | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常小,但質量損失高 |
[orca - 2 - 13b.Q3_K_L.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q3_K_L.gguf) | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小,但質量損失較大 |
[orca - 2 - 13b.Q4_0.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q4_0.gguf) | Q4_0 | 4 | 7.37 GB | 9.87 GB | 舊版;小,但質量損失非常高,建議使用 Q3_K_M |
[orca - 2 - 13b.Q4_K_S.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q4_K_S.gguf) | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小,但質量損失更大 |
[orca - 2 - 13b.Q4_K_M.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q4_K_M.gguf) | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中等,質量平衡,推薦使用 |
[orca - 2 - 13b.Q5_0.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q5_0.gguf) | Q5_0 | 5 | 8.97 GB | 11.47 GB | 舊版;中等,質量平衡,建議使用 Q4_K_M |
[orca - 2 - 13b.Q5_K_S.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q5_K_S.gguf) | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大,質量損失低,推薦使用 |
[orca - 2 - 13b.Q5_K_M.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q5_K_M.gguf) | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大,質量損失非常低,推薦使用 |
[orca - 2 - 13b.Q6_K.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q6_K.gguf) | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常大,質量損失極低 |
[orca - 2 - 13b.Q8_0.gguf](https://huggingface.co/TheBloke/Orca - 2 - 13B - GGUF/blob/main/orca - 2 - 13b.Q8_0.gguf) | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常大,質量損失極低,但不建議使用 |
注意:上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
🔧 技術細節
模型架構
Orca 2 是基於 LLAMA - 2 微調的版本。其訓練數據是一個合成數據集,旨在增強小模型的推理能力。所有合成訓練數據都使用微軟 Azure 內容過濾器進行了審核。更多關於模型的詳細信息可參考 Orca 2 論文。
量化原理
不同的量化方法通過對模型權重進行不同程度的壓縮,在精度和性能之間進行權衡。例如,GGML_TYPE_Q2_K 方法通過將權重量化為 2 位,減少了模型的存儲空間和計算量,但同時也會帶來一定的質量損失。
📄 許可證
- Orca 2 遵循 Microsoft Research License。
- Llama 2 遵循 LLAMA 2 Community License,版權所有 © Meta Platforms, Inc. 保留所有權利。
⚠️ 重要提示
使用該模型時,需要注意以下潛在風險:
- 數據偏差:大語言模型在大量數據上訓練,可能會攜帶源數據中的偏差,導致生成的輸出可能存在潛在的偏差或不公平性。
- 缺乏上下文理解:儘管這些模型在語言理解和生成方面表現出色,但它們對現實世界的理解有限,可能導致輸出不準確或無意義。
- 缺乏透明度:由於模型的複雜性和規模,大語言模型可能像“黑匣子”一樣,難以理解特定輸出或決策的背後原因。
- 內容危害:大語言模型可能會造成各種類型的內容危害,使用時需要注意並採取措施預防。建議利用不同公司和機構提供的各種內容審核服務。
- 幻覺:在關鍵決策或可能產生重大影響的信息方面,不要完全依賴語言模型,因為難以防止這些模型編造內容。此外,由於小模型的規模較小和記憶能力有限,在無根據的生成用例中可能更容易出現幻覺。
💡 使用建議
- 根據自己的硬件環境和使用場景選擇合適的量化文件,如對精度要求較高,可選擇 Q5_K_M 或 Q6_K 等量化方法的文件;若對存儲空間和性能要求較高,可選擇 Q4_K_M 等文件。
- 在使用過程中,可結合 LangChain 等工具,實現更強大的功能和更靈活的應用。
- 及時關注項目的更新和社區討論,獲取最新的使用技巧和問題解決方案。
Discord
如需進一步支持,或討論這些模型和人工智能相關話題,請加入:TheBloke AI's Discord server
感謝與貢獻
感謝 chirper.ai 團隊和 [gpus.llm - utils.org](llm - utils) 的 Clay!
如果您願意為項目做出貢獻,捐贈將非常感激,這將幫助項目作者提供更多模型並開展新的 AI 項目。捐贈者將獲得優先支持、訪問私人 Discord 房間等福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko - Fi: https://ko - fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Brandon Frisco、LangChain4j 等眾多支持者。
再次感謝 a16z 的慷慨資助!



