模型概述
模型特點
模型能力
使用案例
🚀 Mistral 7B v0.1 - GGUF
本項目提供了 Mistral AI的Mistral 7B v0.1 模型的GGUF格式文件,方便用戶在不同環境中使用該模型進行文本生成任務。
基本信息
屬性 | 詳情 |
---|---|
模型類型 | mistral |
模型創建者 | Mistral AI |
原始模型 | Mistral 7B v0.1 |
量化者 | TheBloke |
許可證 | apache-2.0 |
項目頭部信息

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助
模型描述
本倉庫包含 Mistral AI的Mistral 7B v0.1 的GGUF格式模型文件。
關於GGUF
GGUF是llama.cpp團隊在2023年8月21日推出的一種新格式,它取代了不再被llama.cpp支持的GGML格式。
以下是已知支持GGUF的客戶端和庫的不完全列表:
- llama.cpp:GGUF的源項目,提供了命令行界面和服務器選項。
- text-generation-webui:最廣泛使用的Web界面,具有許多功能和強大的擴展,支持GPU加速。
- KoboldCpp:功能齊全的Web界面,支持所有平臺和GPU架構的GPU加速,特別適合講故事。
- LM Studio:適用於Windows和macOS(Silicon)的易於使用且功能強大的本地圖形用戶界面,支持GPU加速。
- LoLLMS Web UI:一個很棒的Web界面,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天圖形用戶界面,適用於Windows和macOS(Silicon和Intel),支持GPU加速。
- ctransformers:一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
- llama-cpp-python:一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
- candle:一個專注於性能的Rust機器學習框架,包括GPU支持和易用性。
可用倉庫
- 用於GPU推理的AWQ模型
- 用於GPU推理的GPTQ模型,具有多種量化參數選項
- 用於CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Mistral AI的原始未量化fp16格式的PyTorch模型,用於GPU推理和進一步轉換
提示模板
{prompt}
兼容性
這些量化的GGUFv2文件與2023年8月27日之後的llama.cpp版本兼容,對應提交為 d0cee0d。
它們也與許多第三方界面和庫兼容,請參閱本README頂部的列表。
序列長度說明:該模型在序列長度為4096或更小時可以正常工作。GGUF目前尚不支持新的滑動窗口序列長度模式,因此不支持更長的序列長度。
量化方法解釋
點擊查看詳情
可用的新方法如下:
- GGML_TYPE_Q2_K:“類型1”的2位量化,超級塊包含16個塊,每個塊有16個權重。塊的縮放因子和最小值使用4位量化,最終每個權重有效使用2.5625位(bpw)。
- GGML_TYPE_Q3_K:“類型0”的3位量化,超級塊包含16個塊,每個塊有16個權重。縮放因子使用6位量化,最終每個權重使用3.4375位。
- GGML_TYPE_Q4_K:“類型1”的4位量化,超級塊包含8個塊,每個塊有32個權重。縮放因子和最小值使用6位量化,最終每個權重使用4.5位。
- GGML_TYPE_Q5_K:“類型1”的5位量化,與GGML_TYPE_Q4_K具有相同的超級塊結構,最終每個權重使用5.5位。
- GGML_TYPE_Q6_K:“類型0”的6位量化,超級塊包含16個塊,每個塊有16個權重。縮放因子使用8位量化,最終每個權重使用6.5625位。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大內存 | 使用場景 |
---|---|---|---|---|---|
mistral-7b-v0.1.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,但質量損失顯著,不建議用於大多數場景 |
mistral-7b-v0.1.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,但質量損失高 |
mistral-7b-v0.1.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,但質量損失高 |
mistral-7b-v0.1.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,但質量損失較大 |
mistral-7b-v0.1.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 舊版本;小,但質量損失非常高,建議使用Q3_K_M |
mistral-7b-v0.1.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,但質量損失較大 |
mistral-7b-v0.1.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,質量平衡,推薦使用 |
mistral-7b-v0.1.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 舊版本;中等,質量平衡,建議使用Q4_K_M |
mistral-7b-v0.1.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,質量損失低,推薦使用 |
mistral-7b-v0.1.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,質量損失非常低,推薦使用 |
mistral-7b-v0.1.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,質量損失極低 |
mistral-7b-v0.1.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,質量損失極低,但不建議使用 |
注意:上述內存數字假設沒有進行GPU卸載。如果將層卸載到GPU,這將減少內存使用並使用顯存。
如何下載GGUF文件
手動下載者注意:你幾乎不需要克隆整個倉庫!這裡提供了多種不同的量化格式,大多數用戶只需要選擇並下載單個文件。
以下客戶端/庫將自動為你下載模型,並提供可用模型列表供你選擇:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中
在“下載模型”選項下,你可以輸入模型倉庫名稱:TheBloke/Mistral-7B-v0.1-GGUF,然後在下方輸入要下載的具體文件名,例如:mistral-7b-v0.1.Q4_K_M.gguf,然後點擊“下載”。
在命令行中,包括一次下載多個文件
我建議使用 huggingface-hub
Python庫:
pip3 install huggingface-hub
然後你可以使用以下命令將任何單個模型文件高速下載到當前目錄:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高級的huggingface-cli下載用法
你還可以使用通配符一次下載多個文件:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有關使用 huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python庫 -> 下載文件 -> 從命令行下載。
要在高速連接(1Gbit/s或更高)上加速下載,請安裝 hf_transfer
:
pip3 install hf_transfer
並將環境變量 HF_HUB_ENABLE_HF_TRANSFER
設置為 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用戶:你可以在下載命令之前運行 set HF_HUB_ENABLE_HF_TRANSFER=1
來設置環境變量。
使用示例
llama.cpp
命令示例
確保你使用的是 d0cee0d 或更高版本的 llama.cpp
。
./main -ngl 32 -m mistral-7b-v0.1.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
將 -ngl 32
更改為要卸載到GPU的層數。如果你沒有GPU加速,可以刪除該參數。
序列長度可以是4096或更小。Mistral的滑動窗口序列長度在llama.cpp中尚未支持,因此不支持超過4096的序列長度。
如果你想進行聊天式對話,請將 -p <PROMPT>
參數替換為 -i -ins
。
有關其他參數及其使用方法,請參考 llama.cpp文檔。
在 text-generation-webui
中運行
更多說明請參考:text-generation-webui/docs/llama.cpp.md。
從Python代碼運行
你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。
使用 ctransformers
在Python代碼中加載此模型
注意:我尚未使用Mistral模型測試過 ctransformers
,但如果你將 model_type
設置為 llama
,它可能會工作。
首先安裝包,根據你的系統運行以下命令之一:
# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(僅適用於Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用適用於macOS系統的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers
簡單的 ctransformers
示例代碼:
from ctransformers import AutoModelForCausalLM
# 將gpu_layers設置為要卸載到GPU的層數。如果你的系統沒有GPU加速,請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mistral-7B-v0.1-GGUF", model_file="mistral-7b-v0.1.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
如何與LangChain一起使用
以下是使用 llama-cpp-python
和 ctransformers
與LangChain的指南:
Discord
如需進一步支持,以及討論這些模型和人工智能相關話題,請加入我們: TheBloke AI的Discord服務器
感謝與貢獻方式
感謝 chirper.ai 團隊! 感謝來自 gpus.llm-utils.org 的Clay!
很多人問我是否可以進行貢獻。我喜歡提供模型並幫助他人,也希望能夠花更多時間做這些事情,以及開展新的項目,如微調/訓練。
如果你有能力且願意貢獻,我將非常感激,這將幫助我繼續提供更多模型,並開始新的人工智能項目。
捐贈者將在任何與AI/大語言模型/模型相關的問題和請求上獲得優先支持,訪問私人Discord房間,以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon特別提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感謝所有慷慨的贊助者和捐贈者! 再次感謝a16z的慷慨資助。
原始模型卡片
Mistral AI的Mistral 7B v0.1模型卡片
Mistral-7B-v0.1大語言模型(LLM)是一個預訓練的生成式文本模型,具有70億個參數。Mistral-7B-v0.1在我們測試的所有基準測試中都優於Llama 2 13B。
有關此模型的完整詳細信息,請閱讀我們的 發佈博客文章。
模型架構
Mistral-7B-v0.1是一個Transformer模型,具有以下架構選擇:
- 分組查詢注意力(Grouped-Query Attention)
- 滑動窗口注意力(Sliding-Window Attention)
- 字節回退BPE分詞器(Byte-fallback BPE tokenizer)
Mistral AI團隊成員
Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.



