🚀 Mistral-NeMo-Minitron-8B-Base-IMat-GGUF
本项目是对nvidia/Mistral-NeMo-Minitron-8B-Base模型进行llama.cpp imatrix量化的成果,为模型的使用和部署提供了更多选择。
🚀 快速开始
模型信息
属性 |
详情 |
基础模型 |
nvidia/Mistral-NeMo-Minitron-8B-Base |
推理功能 |
未开启 |
库名称 |
gguf |
许可证 |
其他 |
许可证链接 |
nvidia-open-model-license |
任务类型 |
文本生成 |
量化者 |
legraphista |
标签 |
量化、GGUF、量化技术、imat、imatrix、静态、16位、8位、6位、5位、4位、3位、2位、1位 |
原始模型信息
文档目录
📦 文件信息
IMatrix
常用量化文件
所有量化文件
📦 安装指南
使用huggingface-cli下载模型
安装huggingface-cli
如果你尚未安装huggingface-cli,可以使用以下命令进行安装:
pip install -U "huggingface_hub[cli]"
下载指定文件
使用以下命令下载你需要的特定文件:
huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf" --local-dir ./
下载拆分文件
如果模型文件较大,已被拆分为多个文件,可使用以下命令将所有文件下载到本地文件夹:
huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0/*" --local-dir ./
💻 使用示例
使用Llama.cpp进行推理
llama.cpp/main -m Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf --color -i -p "prompt here"
📚 详细文档
常见问题解答
为什么IMatrix没有应用到所有地方?
根据这项调查,似乎只有较低的量化级别能从imatrix输入中受益(根据hellaswag结果)。
如何合并拆分的GGUF文件?
- 确保你已经获取了
gguf-split
工具:
- 访问https://github.com/ggerganov/llama.cpp/releases 。
- 从最新版本中下载适合你系统的zip文件。
- 解压文件后,你应该能找到
gguf-split
工具。
- 找到你的GGUF文件块所在的文件夹(例如:
Mistral-NeMo-Minitron-8B-Base.Q8_0
)。
- 运行以下命令合并文件:
gguf-split --merge Mistral-NeMo-Minitron-8B-Base.Q8_0/Mistral-NeMo-Minitron-8B-Base.Q8_0-00001-of-XXXXX.gguf Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf
请确保将gguf-split
指向拆分文件的第一个块。
如果你有任何建议,欢迎在 @legraphista 联系我!