模型简介
模型特点
模型能力
使用案例
🚀 Mistral 7B v0.1 - GGUF
本项目提供了 Mistral AI的Mistral 7B v0.1 模型的GGUF格式文件,方便用户在不同环境中使用该模型进行文本生成任务。
基本信息
属性 | 详情 |
---|---|
模型类型 | mistral |
模型创建者 | Mistral AI |
原始模型 | Mistral 7B v0.1 |
量化者 | TheBloke |
许可证 | apache-2.0 |
项目头部信息

TheBloke的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助
模型描述
本仓库包含 Mistral AI的Mistral 7B v0.1 的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队在2023年8月21日推出的一种新格式,它取代了不再被llama.cpp支持的GGML格式。
以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp:GGUF的源项目,提供了命令行界面和服务器选项。
- text-generation-webui:最广泛使用的Web界面,具有许多功能和强大的扩展,支持GPU加速。
- KoboldCpp:功能齐全的Web界面,支持所有平台和GPU架构的GPU加速,特别适合讲故事。
- LM Studio:适用于Windows和macOS(Silicon)的易于使用且功能强大的本地图形用户界面,支持GPU加速。
- LoLLMS Web UI:一个很棒的Web界面,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天图形用户界面,适用于Windows和macOS(Silicon和Intel),支持GPU加速。
- ctransformers:一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
- llama-cpp-python:一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
- candle:一个专注于性能的Rust机器学习框架,包括GPU支持和易用性。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,具有多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Mistral AI的原始未量化fp16格式的PyTorch模型,用于GPU推理和进一步转换
提示模板
{prompt}
兼容性
这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp版本兼容,对应提交为 d0cee0d。
它们也与许多第三方界面和库兼容,请参阅本README顶部的列表。
序列长度说明:该模型在序列长度为4096或更小时可以正常工作。GGUF目前尚不支持新的滑动窗口序列长度模式,因此不支持更长的序列长度。
量化方法解释
点击查看详情
可用的新方法如下:
- GGML_TYPE_Q2_K:“类型1”的2位量化,超级块包含16个块,每个块有16个权重。块的缩放因子和最小值使用4位量化,最终每个权重有效使用2.5625位(bpw)。
- GGML_TYPE_Q3_K:“类型0”的3位量化,超级块包含16个块,每个块有16个权重。缩放因子使用6位量化,最终每个权重使用3.4375位。
- GGML_TYPE_Q4_K:“类型1”的4位量化,超级块包含8个块,每个块有32个权重。缩放因子和最小值使用6位量化,最终每个权重使用4.5位。
- GGML_TYPE_Q5_K:“类型1”的5位量化,与GGML_TYPE_Q4_K具有相同的超级块结构,最终每个权重使用5.5位。
- GGML_TYPE_Q6_K:“类型0”的6位量化,超级块包含16个块,每个块有16个权重。缩放因子使用8位量化,最终每个权重使用6.5625位。
请参考下面的“提供的文件”表,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
名称 | 量化方法 | 位数 | 大小 | 所需最大内存 | 使用场景 |
---|---|---|---|---|---|
mistral-7b-v0.1.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,但质量损失显著,不建议用于大多数场景 |
mistral-7b-v0.1.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,但质量损失高 |
mistral-7b-v0.1.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,但质量损失高 |
mistral-7b-v0.1.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,但质量损失较大 |
mistral-7b-v0.1.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 旧版本;小,但质量损失非常高,建议使用Q3_K_M |
mistral-7b-v0.1.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,但质量损失较大 |
mistral-7b-v0.1.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,质量平衡,推荐使用 |
mistral-7b-v0.1.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 旧版本;中等,质量平衡,建议使用Q4_K_M |
mistral-7b-v0.1.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,质量损失低,推荐使用 |
mistral-7b-v0.1.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,质量损失非常低,推荐使用 |
mistral-7b-v0.1.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,质量损失极低 |
mistral-7b-v0.1.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,质量损失极低,但不建议使用 |
注意:上述内存数字假设没有进行GPU卸载。如果将层卸载到GPU,这将减少内存使用并使用显存。
如何下载GGUF文件
手动下载者注意:你几乎不需要克隆整个仓库!这里提供了多种不同的量化格式,大多数用户只需要选择并下载单个文件。
以下客户端/库将自动为你下载模型,并提供可用模型列表供你选择:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中
在“下载模型”选项下,你可以输入模型仓库名称:TheBloke/Mistral-7B-v0.1-GGUF,然后在下方输入要下载的具体文件名,例如:mistral-7b-v0.1.Q4_K_M.gguf,然后点击“下载”。
在命令行中,包括一次下载多个文件
我建议使用 huggingface-hub
Python库:
pip3 install huggingface-hub
然后你可以使用以下命令将任何单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
你还可以使用通配符一次下载多个文件:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用 huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python库 -> 下载文件 -> 从命令行下载。
要在高速连接(1Gbit/s或更高)上加速下载,请安装 hf_transfer
:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER
设置为 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用户:你可以在下载命令之前运行 set HF_HUB_ENABLE_HF_TRANSFER=1
来设置环境变量。
使用示例
llama.cpp
命令示例
确保你使用的是 d0cee0d 或更高版本的 llama.cpp
。
./main -ngl 32 -m mistral-7b-v0.1.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
将 -ngl 32
更改为要卸载到GPU的层数。如果你没有GPU加速,可以删除该参数。
序列长度可以是4096或更小。Mistral的滑动窗口序列长度在llama.cpp中尚未支持,因此不支持超过4096的序列长度。
如果你想进行聊天式对话,请将 -p <PROMPT>
参数替换为 -i -ins
。
有关其他参数及其使用方法,请参考 llama.cpp文档。
在 text-generation-webui
中运行
更多说明请参考:text-generation-webui/docs/llama.cpp.md。
从Python代码运行
你可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。
使用 ctransformers
在Python代码中加载此模型
注意:我尚未使用Mistral模型测试过 ctransformers
,但如果你将 model_type
设置为 llama
,它可能会工作。
首先安装包,根据你的系统运行以下命令之一:
# 无GPU加速的基础ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(仅适用于Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用适用于macOS系统的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers
简单的 ctransformers
示例代码:
from ctransformers import AutoModelForCausalLM
# 将gpu_layers设置为要卸载到GPU的层数。如果你的系统没有GPU加速,请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mistral-7B-v0.1-GGUF", model_file="mistral-7b-v0.1.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
如何与LangChain一起使用
以下是使用 llama-cpp-python
和 ctransformers
与LangChain的指南:
Discord
如需进一步支持,以及讨论这些模型和人工智能相关话题,请加入我们: TheBloke AI的Discord服务器
感谢与贡献方式
感谢 chirper.ai 团队! 感谢来自 gpus.llm-utils.org 的Clay!
很多人问我是否可以进行贡献。我喜欢提供模型并帮助他人,也希望能够花更多时间做这些事情,以及开展新的项目,如微调/训练。
如果你有能力且愿意贡献,我将非常感激,这将帮助我继续提供更多模型,并开始新的人工智能项目。
捐赠者将在任何与AI/大语言模型/模型相关的问题和请求上获得优先支持,访问私人Discord房间,以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐赠者! 再次感谢a16z的慷慨资助。
原始模型卡片
Mistral AI的Mistral 7B v0.1模型卡片
Mistral-7B-v0.1大语言模型(LLM)是一个预训练的生成式文本模型,具有70亿个参数。Mistral-7B-v0.1在我们测试的所有基准测试中都优于Llama 2 13B。
有关此模型的完整详细信息,请阅读我们的 发布博客文章。
模型架构
Mistral-7B-v0.1是一个Transformer模型,具有以下架构选择:
- 分组查询注意力(Grouped-Query Attention)
- 滑动窗口注意力(Sliding-Window Attention)
- 字节回退BPE分词器(Byte-fallback BPE tokenizer)
Mistral AI团队成员
Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.



