Mistral-7B-OpenOrca-GGUF開源大語言模型 - 免費部署專注文本生成

首頁

Mistral 7B OpenOrca GGUF

由TheBloke開發

Mistral 7B OpenOrca是基於Mistral-7B架構的大語言模型，由OpenOrca團隊訓練，專注於文本生成任務。

大型語言模型英語開源協議:Apache-2.0 #高效對話生成 #多輪對話優化 #輕量級7B模型

下載量 7,792

發布時間 : 4/25/2025

模型概述

該模型是基於Mistral-7B架構的大語言模型，經過OpenOrca數據集的訓練，適用於多種文本生成任務。

模型特點

高效文本生成

基於Mistral-7B架構，提供高效的文本生成能力。

多任務支持

適用於多種文本生成任務，包括對話、問答等。

量化支持

提供多種量化版本的模型，便於在不同硬件上部署。

模型能力

文本生成

對話系統

問答系統

使用案例

對話系統

智能客服

用於構建智能客服系統，回答用戶問題。

內容生成

文章生成

生成高質量的文章內容。

🚀 Mistral 7B OpenOrca - GGUF

本項目提供了 OpenOrca的Mistral 7B OpenOrca 模型的GGUF格式文件。GGUF格式是由llama.cpp團隊推出的新型模型格式，具有更好的兼容性和性能。

交流與支持：TheBloke的Discord服務器

想要貢獻？TheBloke的Patreon頁面

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助

🚀 快速開始

本項目提供了Mistral 7B OpenOrca模型的GGUF格式文件，你可以根據自己的需求選擇合適的量化文件進行下載和使用。下面將為你介紹相關的兼容性、下載方法和運行示例。

✨ 主要特性

多種量化格式：提供了2、3、4、5、6和8位的GGUF量化模型，適用於不同的硬件環境和應用場景。
廣泛的兼容性：與llama.cpp及眾多第三方UI和庫兼容，方便用戶進行推理和開發。
高性能：基於Mistral 7B OpenOrca模型，在多個評估指標上表現出色。

📦 安裝指南

下載GGUF文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev等客戶端/庫會自動為你下載模型，並提供可用模型列表供你選擇。
手動下載：不建議克隆整個倉庫，因為提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件。

在`text-generation-webui`中下載

在“Download Model”下，輸入模型倉庫地址 TheBloke/Mistral-7B-OpenOrca-GGUF，並在下方輸入具體的文件名，如 mistral-7b-openorca.Q4_K_M.gguf，然後點擊“Download”。

在命令行下載單個文件

推薦使用huggingface-hub Python庫：

pip3 install huggingface-hub

然後使用以下命令將單個模型文件高速下載到當前目錄：

huggingface-cli download TheBloke/Mistral-7B-OpenOrca-GGUF mistral-7b-openorca.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

高級下載用法

你可以使用通配符一次性下載多個文件：

huggingface-cli download TheBloke/Mistral-7B-OpenOrca-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

更多關於huggingface-cli下載的文檔，請參考：HF -> Hub Python Library -> Download files -> Download from the CLI。

為了在高速連接（1Gbit/s或更高）下加速下載，安裝hf_transfer：

pip3 install hf_transfer

並將環境變量HF_HUB_ENABLE_HF_TRANSFER設置為1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mistral-7B-OpenOrca-GGUF mistral-7b-openorca.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用戶可以在下載命令前運行set HF_HUB_ENABLE_HF_TRANSFER=1來設置環境變量。

💻 使用示例

在`llama.cpp`中運行

確保你使用的是2023年8月27日之後的llama.cpp版本（提交號：d0cee0d）。

./main -ngl 32 -m mistral-7b-openorca.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32：將其改為要卸載到GPU的層數。如果沒有GPU加速，請移除該參數。
-c 2048：將其改為所需的序列長度。對於擴展序列模型（如8K、16K、32K），必要的RoPE縮放參數會從GGUF文件中讀取，並由llama.cpp自動設置。
如果你想進行聊天式對話，將-p <PROMPT>參數替換為-i -ins。

更多參數及使用方法，請參考 llama.cpp文檔。

在`text-generation-webui`中運行

更多說明請參考：text-generation-webui/docs/llama.cpp.md。

在Python代碼中運行

你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。

使用`ctransformers`加載模型

安裝包

根據你的系統運行以下命令之一：

# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（僅適用於Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速（僅適用於macOS系統）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡單的`ctransformers`示例代碼

from ctransformers import AutoModelForCausalLM

# 將gpu_layers設置為要卸載到GPU的層數。如果你的系統沒有GPU加速，請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mistral-7B-OpenOrca-GGUF", model_file="mistral-7b-openorca.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

與LangChain一起使用

以下是使用llama-cpp-python和ctransformers與LangChain的指南：

📚 詳細文檔

關於GGUF

GGUF是llama.cpp團隊在2023年8月21日推出的新格式，它是GGML的替代品，目前GGML已不再受llama.cpp支持。

以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供CLI和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：功能齊全的Web UI，支持跨所有平臺和GPU架構的GPU加速，尤其適合講故事。
LM Studio：適用於Windows和macOS（Silicon）的易於使用且功能強大的本地GUI，支持GPU加速。
LoLLMS Web UI：一個很棒的Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天GUI，適用於Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
llama-cpp-python：一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
candle：一個Rust機器學習框架，專注於性能，包括GPU支持和易用性。

可用的倉庫

提示模板：ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

兼容性

這些量化的GGUFv2文件與2023年8月27日之後的llama.cpp版本兼容（提交號：d0cee0d）。

它們也與許多第三方UI和庫兼容，請參閱本README頂部的列表。

量化方法說明

點擊查看詳情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超級塊包含16個塊，每個塊有16個權重。塊的縮放和最小值用4位量化，最終每個權重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超級塊包含16個塊，每個塊有16個權重。縮放用6位量化，最終使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超級塊包含8個塊，每個塊有32個權重。縮放和最小值用6位量化，最終使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，與GGML_TYPE_Q4_K具有相同的超級塊結構，最終使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超級塊包含16個塊，每個塊有16個權重。縮放用8位量化，最終使用6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	位數	大小	所需最大RAM	使用場景
mistral-7b-openorca.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，但質量損失顯著，不建議用於大多數場景
mistral-7b-openorca.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，但質量損失高
mistral-7b-openorca.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，但質量損失高
mistral-7b-openorca.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，但質量損失較大
mistral-7b-openorca.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	舊版本；小，但質量損失非常高，建議使用Q3_K_M
mistral-7b-openorca.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，但質量損失更大
mistral-7b-openorca.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，質量平衡，推薦使用
mistral-7b-openorca.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	舊版本；中等，質量平衡，建議使用Q4_K_M
mistral-7b-openorca.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，質量損失低，推薦使用
mistral-7b-openorca.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，質量損失非常低，推薦使用
mistral-7b-openorca.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，質量損失極低
mistral-7b-openorca.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，質量損失極低，但不建議使用

注意：上述RAM數字假設沒有進行GPU卸載。如果將層卸載到GPU，將減少RAM使用，轉而使用VRAM。

🔧 技術細節

原始模型信息

屬性	詳情
模型創建者	OpenOrca
原始模型	Mistral 7B OpenOrca
模型類型	mistral
訓練數據	Open-Orca/OpenOrca
推理	false
語言	en
庫名稱	transformers
許可證	apache-2.0
量化者	TheBloke

評估結果

HuggingFace排行榜性能

使用HuggingFace排行榜的評估方法和工具進行評估，發現該模型在基礎模型的基礎上有顯著提升。在HF排行榜評估中，達到了基礎模型性能的105%，平均得分為65.33。

發佈時，該模型擊敗了所有7B模型，以及除一個13B模型之外的所有其他模型。

HF排行榜

指標	值
MMLU (5-shot)	61.73
ARC (25-shot)	63.57
HellaSwag (10-shot)	83.79
TruthfulQA (0-shot)	52.24
平均值	65.33

AGIEval性能

與基礎Mistral-7B模型（使用LM Evaluation Harness）進行比較，發現該模型在AGI評估中達到了基礎模型性能的129%，平均得分為0.397。同時，顯著優於官方的mistralai/Mistral-7B-Instruct-v0.1微調模型，達到了其性能的119%。

OpenOrca-Platypus2-13B AGIEval性能

BigBench-Hard性能

該模型在BigBench-Hard評估中達到了基礎模型性能的119%，平均得分為0.416。

OpenOrca-Platypus2-13B BigBench-Hard性能

訓練信息

使用8個A6000 GPU進行了62小時的訓練，在一次訓練運行中對數據集進行了4個epoch的全量微調。訓練成本約為400美元。

引用信息

@software{lian2023mistralorca1
  title = {MistralOrca: Mistral-7B Model Instruct-tuned on Filtered OpenOrcaV1 GPT-4 Dataset},
  author = {Wing Lian and Bleys Goodson and Guan Wang and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"},
  year = {2023},
  publisher = {HuggingFace},
  journal = {HuggingFace repository},
  howpublished = {\url{https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca},
}
@misc{mukherjee2023orca,
      title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4},
      author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah},
      year={2023},
      eprint={2306.02707},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{longpre2023flan,
      title={The Flan Collection: Designing Data and Methods for Effective Instruction Tuning},
      author={Shayne Longpre and Le Hou and Tu Vu and Albert Webson and Hyung Won Chung and Yi Tay and Denny Zhou and Quoc V. Le and Barret Zoph and Jason Wei and Adam Roberts},
      year={2023},
      eprint={2301.13688},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}

📄 許可證

本項目使用apache-2.0許可證。

💬 Discord

如需進一步支持，或討論這些模型和人工智能相關話題，請加入：TheBloke AI的Discord服務器

🙏 感謝與貢獻

感謝 chirper.ai 團隊！感謝 gpus.llm-utils.org 的Clay！

很多人詢問是否可以進行貢獻。我很樂意提供模型並幫助大家，也希望能有更多時間投入其中，並開展新的項目，如微調/訓練。

如果你有能力且願意貢獻，我將非常感激，這將幫助我繼續提供更多模型，並開展新的人工智能項目。

捐贈者將在所有人工智能/大語言模型/模型相關問題和請求上獲得優先支持，訪問私人Discord房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon特別提及：Pierre Kircher、Stanislav Ovsiannikov、Michael Levine、Eugene Pentland、Andrey、준교 김、Randy H、Fred von Graf、Artur Olbinski、Caitlyn Gatomon、terasurfer、Jeff Scroggin、James Bentley、Vadim、Gabriel Puliatti、Harry Royden McLaughlin、Sean Connelly、Dan Guido、Edmond Seymore、Alicia Loh、subjectnull、AzureBlack、Manuel Alberto Morcote、Thomas Belote、Lone Striker、Chris Smitley、Vitor Caleffi、Johann-Peter Hartmann、Clay Pascal、biorpg、Brandon Frisco、sidney chen、transmissions 11、Pedro Madruga、jinyuan sun、Ajan Kanaga、Emad Mostaque、Trenton Dambrowitz、Jonathan Leane、Iucharbius、usrbinkat、vamX、George Stoitzev、Luke Pendergrass、theTransient、Olakabola、Swaroop Kallakuri、Cap'n Zoog、Brandon Phillips、Michael Dempsey、Nikolai Manek、danny、Matthew Berman、Gabriel Tamborski、alfie_i、Raymond Fosdick、Tom X Nguyen、Raven Klaugh、LangChain4j、Magnesian、Illia Dulskyi、David Ziegler、Mano Prime、Luis Javier Navarrete Lozano、Erik Bjäreholt、阿明、Nathan Dryer、Alex、Rainer Wilmers、zynix、TL、Joseph William Delisle、John Villwock、Nathan LeClaire、Willem Michiel、Joguhyik、GodLy、OG、Alps Aficionado、Jeffrey Morgan、ReadyPlayerEmma、Tiffany J. Kim、Sebastain Graf、Spencer Kim、Michael Davis、webtim、Talal Aujan、knownsqashed、John Detwiler、Imad Khwaja、Deo Leter、Jerry Meng、Elijah Stavena、Rooh Singh、Pieter、SuperWojo、Alexandros Triantafyllidis、Stephen Murray、Ai Maven、ya boyyy、Enrico Ros、Ken Nordquist、Deep Realms、Nicholas、Spiking Neurons AB、Elle、Will Dee、Jack West、RoA、Luke @flexchar、Viktor Bowallius、Derek Yates、Subspace Studios、jjj、Toran Billups、Asp the Wyvern、Fen Risland、Ilya、NimbleBox.ai、Chadd、Nitin Borwankar、Emre、Mandus、Leonard Tan、Kalila、K、Trailburnt、S_X、Cory Kujawski

感謝所有慷慨的贊助者和捐贈者！再次感謝a16z的慷慨資助。