Mistral-NeMo-Minitron-8B-Base-IMat-GGUF开源模型 - 部署选择多，使用更便捷！

Mistral NeMo Minitron 8B Base IMat GGUF

由 legraphista 开发

这是一个基于nvidia/Mistral-NeMo-Minitron-8B-Base模型进行llama.cpp imatrix量化的成果，为模型的使用和部署提供了更多选择。

大型语言模型开源协议:其他 #多精度量化 #轻量级部署 #文本生成优化

下载量 1,115

发布时间 : 8/21/2024

模型简介

该模型是对NVIDIA的Mistral-NeMo-Minitron-8B-Base模型进行量化处理的版本，主要应用于文本生成任务。

模型特点

多种量化选项

提供从16位到1位的多种量化版本，满足不同硬件和性能需求。

IMatrix量化技术

使用llama.cpp的imatrix量化技术，在低比特量化级别上保持更好的模型性能。

GGUF格式支持

采用GGUF格式，便于在各种设备上部署和使用。

模型能力

文本生成

量化模型推理

使用案例

文本生成

通用文本生成

可用于生成各种类型的文本内容

边缘设备部署

低资源设备运行

通过量化版本在资源有限的设备上运行大型语言模型

🚀 Mistral-NeMo-Minitron-8B-Base-IMat-GGUF

本项目是对nvidia/Mistral-NeMo-Minitron-8B-Base模型进行llama.cpp imatrix量化的成果，为模型的使用和部署提供了更多选择。

🚀 快速开始

模型信息

属性	详情
基础模型	nvidia/Mistral-NeMo-Minitron-8B-Base
推理功能	未开启
库名称	gguf
许可证	其他
许可证链接	nvidia-open-model-license
任务类型	文本生成
量化者	legraphista
标签	量化、GGUF、量化技术、imat、imatrix、静态、16位、8位、6位、5位、4位、3位、2位、1位

原始模型信息

原始模型：nvidia/Mistral-NeMo-Minitron-8B-Base
原始数据类型：BF16 (bfloat16)
量化工具：llama.cpp b3613
IMatrix数据集：点击查看

文档目录

文件信息
使用huggingface-cli下载模型
推理使用说明
- 使用Llama.cpp进行推理
常见问题解答
- 为什么IMatrix没有应用到所有地方？
- 如何合并拆分的GGUF文件？

📦 文件信息

IMatrix

状态：✅ 可用
链接：点击查看

常用量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否拆分
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 可用	✅ IMatrix	❌ 否

所有量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否拆分
Mistral-NeMo-Minitron-8B-Base.BF16.gguf	BF16	16.84GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.FP16.gguf	F16	16.84GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q5_K.gguf	Q5_K	6.00GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q5_K_S.gguf	Q5_K_S	5.86GB	✅ 可用	❌ 静态	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K_S.gguf	Q4_K_S	4.91GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ4_NL.gguf	IQ4_NL	4.90GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ4_XS.gguf	IQ4_XS	4.66GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K_L.gguf	Q3_K_L	4.54GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K_S.gguf	Q3_K_S	3.83GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_M.gguf	IQ3_M	3.98GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_S.gguf	IQ3_S	3.86GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_XS.gguf	IQ3_XS	3.68GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_XXS.gguf	IQ3_XXS	3.43GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K_S.gguf	Q2_K_S	3.13GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_M.gguf	IQ2_M	3.10GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_S.gguf	IQ2_S	2.90GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_XS.gguf	IQ2_XS	2.73GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_XXS.gguf	IQ2_XXS	2.51GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ1_M.gguf	IQ1_M	2.27GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ1_S.gguf	IQ1_S	2.12GB	✅ 可用	✅ IMatrix	❌ 否

📦 安装指南

使用huggingface-cli下载模型

安装huggingface-cli

如果你尚未安装huggingface-cli，可以使用以下命令进行安装：

pip install -U "huggingface_hub[cli]"

下载指定文件

使用以下命令下载你需要的特定文件：

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf" --local-dir ./

下载拆分文件

如果模型文件较大，已被拆分为多个文件，可使用以下命令将所有文件下载到本地文件夹：

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0/*" --local-dir ./
# 合并GGUF文件的方法请参考常见问题解答

💻 使用示例

使用Llama.cpp进行推理

llama.cpp/main -m Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf --color -i -p "prompt here"

📚 详细文档

常见问题解答

为什么IMatrix没有应用到所有地方？

根据这项调查，似乎只有较低的量化级别能从imatrix输入中受益（根据hellaswag结果）。

如何合并拆分的GGUF文件？

确保你已经获取了gguf-split工具：
- 访问https://github.com/ggerganov/llama.cpp/releases 。
- 从最新版本中下载适合你系统的zip文件。
- 解压文件后，你应该能找到gguf-split工具。
找到你的GGUF文件块所在的文件夹（例如：Mistral-NeMo-Minitron-8B-Base.Q8_0）。
运行以下命令合并文件：

gguf-split --merge Mistral-NeMo-Minitron-8B-Base.Q8_0/Mistral-NeMo-Minitron-8B-Base.Q8_0-00001-of-XXXXX.gguf Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf

请确保将gguf-split指向拆分文件的第一个块。

如果你有任何建议，欢迎在 @legraphista 联系我！

Phi 2 GGUF

其他

Phi-2是微软开发的一个小型但强大的语言模型，具有27亿参数，专注于高效推理和高质量文本生成。

基于掩码语言建模目标预训练的大型英语语言模型，采用改进的BERT训练方法

Distilbert Base Uncased

Apache-2.0

DistilBERT是BERT基础模型的蒸馏版本，在保持相近性能的同时更轻量高效，适用于序列分类、标记分类等自然语言处理任务。

Llama 3.1 8B Instruct GGUF

Meta Llama 3.1 8B Instruct 是一个多语言大语言模型，针对多语言对话用例进行了优化，在常见的行业基准测试中表现优异。

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

基于Transformer架构的英语预训练模型，通过掩码语言建模目标在海量文本上训练，支持文本特征提取和下游任务微调

OPT是由Meta AI发布的开放预训练Transformer语言模型套件，参数量从1.25亿到1750亿，旨在对标GPT-3系列性能，同时促进大规模语言模型的开放研究。

基于transformers库的预训练模型，适用于多种NLP任务

Llama 3.1 8B Instruct

Llama 3.1是Meta推出的多语言大语言模型系列，包含8B、70B和405B参数规模，支持8种语言和代码生成，优化了多语言对话场景。

T5基础版是由Google开发的文本到文本转换Transformer模型，参数规模2.2亿，支持多语言NLP任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库