🚀 Mistral-NeMo-Minitron-8B-Base-IMat-GGUF
本項目是對nvidia/Mistral-NeMo-Minitron-8B-Base模型進行llama.cpp imatrix量化的成果,為模型的使用和部署提供了更多選擇。
🚀 快速開始
模型信息
屬性 |
詳情 |
基礎模型 |
nvidia/Mistral-NeMo-Minitron-8B-Base |
推理功能 |
未開啟 |
庫名稱 |
gguf |
許可證 |
其他 |
許可證鏈接 |
nvidia-open-model-license |
任務類型 |
文本生成 |
量化者 |
legraphista |
標籤 |
量化、GGUF、量化技術、imat、imatrix、靜態、16位、8位、6位、5位、4位、3位、2位、1位 |
原始模型信息
文檔目錄
📦 文件信息
IMatrix
常用量化文件
所有量化文件
📦 安裝指南
使用huggingface-cli下載模型
安裝huggingface-cli
如果你尚未安裝huggingface-cli,可以使用以下命令進行安裝:
pip install -U "huggingface_hub[cli]"
下載指定文件
使用以下命令下載你需要的特定文件:
huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf" --local-dir ./
下載拆分文件
如果模型文件較大,已被拆分為多個文件,可使用以下命令將所有文件下載到本地文件夾:
huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0/*" --local-dir ./
💻 使用示例
使用Llama.cpp進行推理
llama.cpp/main -m Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf --color -i -p "prompt here"
📚 詳細文檔
常見問題解答
為什麼IMatrix沒有應用到所有地方?
根據這項調查,似乎只有較低的量化級別能從imatrix輸入中受益(根據hellaswag結果)。
如何合併拆分的GGUF文件?
- 確保你已經獲取了
gguf-split
工具:
- 訪問https://github.com/ggerganov/llama.cpp/releases 。
- 從最新版本中下載適合你係統的zip文件。
- 解壓文件後,你應該能找到
gguf-split
工具。
- 找到你的GGUF文件塊所在的文件夾(例如:
Mistral-NeMo-Minitron-8B-Base.Q8_0
)。
- 運行以下命令合併文件:
gguf-split --merge Mistral-NeMo-Minitron-8B-Base.Q8_0/Mistral-NeMo-Minitron-8B-Base.Q8_0-00001-of-XXXXX.gguf Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf
請確保將gguf-split
指向拆分文件的第一個塊。
如果你有任何建議,歡迎在 @legraphista 聯繫我!