Mistral-NeMo-Minitron-8B-Base-IMat-GGUF開源模型 - 部署選擇多，使用更便捷！

Mistral NeMo Minitron 8B Base IMat GGUF

由legraphista開發

這是一個基於nvidia/Mistral-NeMo-Minitron-8B-Base模型進行llama.cpp imatrix量化的成果，為模型的使用和部署提供了更多選擇。

大型語言模型開源協議:其他 #多精度量化 #輕量級部署 #文本生成優化

下載量 1,115

發布時間 : 8/21/2024

模型概述

該模型是對NVIDIA的Mistral-NeMo-Minitron-8B-Base模型進行量化處理的版本，主要應用於文本生成任務。

模型特點

多種量化選項

提供從16位到1位的多種量化版本，滿足不同硬件和性能需求。

IMatrix量化技術

使用llama.cpp的imatrix量化技術，在低比特量化級別上保持更好的模型性能。

GGUF格式支持

採用GGUF格式，便於在各種設備上部署和使用。

模型能力

文本生成

量化模型推理

使用案例

文本生成

通用文本生成

可用於生成各種類型的文本內容

邊緣設備部署

低資源設備運行

通過量化版本在資源有限的設備上運行大型語言模型

🚀 Mistral-NeMo-Minitron-8B-Base-IMat-GGUF

本項目是對nvidia/Mistral-NeMo-Minitron-8B-Base模型進行llama.cpp imatrix量化的成果，為模型的使用和部署提供了更多選擇。

🚀 快速開始

模型信息

屬性	詳情
基礎模型	nvidia/Mistral-NeMo-Minitron-8B-Base
推理功能	未開啟
庫名稱	gguf
許可證	其他
許可證鏈接	nvidia-open-model-license
任務類型	文本生成
量化者	legraphista
標籤	量化、GGUF、量化技術、imat、imatrix、靜態、16位、8位、6位、5位、4位、3位、2位、1位

原始模型信息

原始模型：nvidia/Mistral-NeMo-Minitron-8B-Base
原始數據類型：BF16 (bfloat16)
量化工具：llama.cpp b3613
IMatrix數據集：點擊查看

文檔目錄

文件信息
使用huggingface-cli下載模型
推理使用說明
- 使用Llama.cpp進行推理
常見問題解答
- 為什麼IMatrix沒有應用到所有地方？
- 如何合併拆分的GGUF文件？

📦 文件信息

IMatrix

狀態：✅ 可用
鏈接：點擊查看

常用量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否拆分
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 可用	✅ IMatrix	❌ 否

所有量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否拆分
Mistral-NeMo-Minitron-8B-Base.BF16.gguf	BF16	16.84GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.FP16.gguf	F16	16.84GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q5_K.gguf	Q5_K	6.00GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q5_K_S.gguf	Q5_K_S	5.86GB	✅ 可用	❌ 靜態	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q4_K_S.gguf	Q4_K_S	4.91GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ4_NL.gguf	IQ4_NL	4.90GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ4_XS.gguf	IQ4_XS	4.66GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K_L.gguf	Q3_K_L	4.54GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q3_K_S.gguf	Q3_K_S	3.83GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_M.gguf	IQ3_M	3.98GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_S.gguf	IQ3_S	3.86GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_XS.gguf	IQ3_XS	3.68GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ3_XXS.gguf	IQ3_XXS	3.43GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.Q2_K_S.gguf	Q2_K_S	3.13GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_M.gguf	IQ2_M	3.10GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_S.gguf	IQ2_S	2.90GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_XS.gguf	IQ2_XS	2.73GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ2_XXS.gguf	IQ2_XXS	2.51GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ1_M.gguf	IQ1_M	2.27GB	✅ 可用	✅ IMatrix	❌ 否
Mistral-NeMo-Minitron-8B-Base.IQ1_S.gguf	IQ1_S	2.12GB	✅ 可用	✅ IMatrix	❌ 否

📦 安裝指南

使用huggingface-cli下載模型

安裝huggingface-cli

如果你尚未安裝huggingface-cli，可以使用以下命令進行安裝：

pip install -U "huggingface_hub[cli]"

下載指定文件

使用以下命令下載你需要的特定文件：

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf" --local-dir ./

下載拆分文件

如果模型文件較大，已被拆分為多個文件，可使用以下命令將所有文件下載到本地文件夾：

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0/*" --local-dir ./
# 合併GGUF文件的方法請參考常見問題解答

💻 使用示例

使用Llama.cpp進行推理

llama.cpp/main -m Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf --color -i -p "prompt here"

📚 詳細文檔

常見問題解答

為什麼IMatrix沒有應用到所有地方？

根據這項調查，似乎只有較低的量化級別能從imatrix輸入中受益（根據hellaswag結果）。

如何合併拆分的GGUF文件？

確保你已經獲取了gguf-split工具：
- 訪問https://github.com/ggerganov/llama.cpp/releases 。
- 從最新版本中下載適合你係統的zip文件。
- 解壓文件後，你應該能找到gguf-split工具。
找到你的GGUF文件塊所在的文件夾（例如：Mistral-NeMo-Minitron-8B-Base.Q8_0）。
運行以下命令合併文件：

gguf-split --merge Mistral-NeMo-Minitron-8B-Base.Q8_0/Mistral-NeMo-Minitron-8B-Base.Q8_0-00001-of-XXXXX.gguf Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf

請確保將gguf-split指向拆分文件的第一個塊。

如果你有任何建議，歡迎在 @legraphista 聯繫我！

Phi 2 GGUF

其他

Phi-2是微軟開發的一個小型但強大的語言模型，具有27億參數，專注於高效推理和高質量文本生成。

基於掩碼語言建模目標預訓練的大型英語語言模型，採用改進的BERT訓練方法

Distilbert Base Uncased

Apache-2.0

DistilBERT是BERT基礎模型的蒸餾版本，在保持相近性能的同時更輕量高效，適用於序列分類、標記分類等自然語言處理任務。

Llama 3.1 8B Instruct GGUF

Meta Llama 3.1 8B Instruct 是一個多語言大語言模型，針對多語言對話用例進行了優化，在常見的行業基準測試中表現優異。

XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型，採用掩碼語言建模目標進行訓練。

基於Transformer架構的英語預訓練模型，通過掩碼語言建模目標在海量文本上訓練，支持文本特徵提取和下游任務微調

OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件，參數量從1.25億到1750億，旨在對標GPT-3系列性能，同時促進大規模語言模型的開放研究。

基於transformers庫的預訓練模型，適用於多種NLP任務

Llama 3.1 8B Instruct

Llama 3.1是Meta推出的多語言大語言模型系列，包含8B、70B和405B參數規模，支持8種語言和代碼生成，優化了多語言對話場景。

T5基礎版是由Google開發的文本到文本轉換Transformer模型，參數規模2.2億，支持多語言NLP任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫