Mistral - NeMo - Minitron - 8B - Base - IMat - GGUFオープンソースモデル - デプロイの選択肢が豊富で、使用もより便利！

ホーム

Mistral NeMo Minitron 8B Base IMat GGUF

legraphistaによって開発

これはnvidia/Mistral-NeMo-Minitron-8B-Baseモデルを基にllama.cpp imatrix量子化を行った成果物で、モデルの使用とデプロイにより多くの選択肢を提供します。

大規模言語モデルオープンソースライセンス:その他 #多精度量子化 #軽量級デプロイ #テキスト生成最適化

ダウンロード数 1,115

リリース時間 : 8/21/2024

モデル概要

このモデルはNVIDIAのMistral-NeMo-Minitron-8B-Baseモデルを量子化処理したバージョンで、主にテキスト生成タスクに応用されます。

モデル特徴

複数の量子化オプション

16ビットから1ビットまでの複数の量子化バージョンを提供し、さまざまなハードウェアとパフォーマンス要件を満たします。

IMatrix量子化技術

llama.cppのimatrix量子化技術を使用し、低ビット量子化レベルでも良好なモデルパフォーマンスを維持します。

GGUF形式サポート

GGUF形式を採用し、さまざまなデバイスでのデプロイと使用を容易にします。

モデル能力

テキスト生成

量子化モデル推論

使用事例

テキスト生成

汎用テキスト生成

さまざまなタイプのテキストコンテンツの生成に使用できます。

エッジデバイスデプロイ

低リソースデバイスでの実行

量子化バージョンを通じて、リソースが限られたデバイスで大型言語モデルを実行できます。

🚀 Mistral-NeMo-Minitron-8B-Base-IMat-GGUF

このプロジェクトは、nvidia/Mistral-NeMo-Minitron-8B-Baseモデルをllama.cpp imatrixで量子化した成果物です。モデルの使用とデプロイにより多くの選択肢を提供します。

🚀 クイックスタート

モデル情報

属性	詳細
ベースモデル	nvidia/Mistral-NeMo-Minitron-8B-Base
推論機能	未開啓
ライブラリ名	gguf
ライセンス	その他
ライセンスリンク	nvidia-open-model-license
タスクタイプ	テキスト生成
量子化者	legraphista
タグ	量子化、GGUF、量子化技術、imat、imatrix、静的、16ビット、8ビット、6ビット、5ビット、4ビット、3ビット、2ビット、1ビット

オリジナルモデル情報

オリジナルモデル：nvidia/Mistral-NeMo-Minitron-8B-Base
オリジナルデータタイプ：BF16 (bfloat16)
量子化ツール：llama.cpp b3613
IMatrixデータセット：クリックして表示

ドキュメント目次

ファイル情報
huggingface-cliを使用してモデルをダウンロードする
推論の使用方法
- Llama.cppを使用した推論
よくある質問
- IMatrixがすべての箇所に適用されていないのはなぜですか？
- 分割されたGGUFファイルをどのように結合するか？

📦 ファイル情報

IMatrix

状態：✅ 利用可能
リンク：クリックして表示

一般的な量子化ファイル

ファイル名	量子化タイプ	ファイルサイズ	状態	IMatrixを使用しているか	分割されているか
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 利用可能	✅ IMatrix	❌ いいえ

すべての量子化ファイル

ファイル名	量子化タイプ	ファイルサイズ	状態	IMatrixを使用しているか	分割されているか
Mistral-NeMo-Minitron-8B-Base.BF16.gguf	BF16	16.84GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.FP16.gguf	F16	16.84GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf	Q8_0	8.95GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q6_K.gguf	Q6_K	6.91GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q5_K.gguf	Q5_K	6.00GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q5_K_S.gguf	Q5_K_S	5.86GB	✅ 利用可能	❌ 静的	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q4_K.gguf	Q4_K	5.15GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q4_K_S.gguf	Q4_K_S	4.91GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ4_NL.gguf	IQ4_NL	4.90GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ4_XS.gguf	IQ4_XS	4.66GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q3_K.gguf	Q3_K	4.21GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q3_K_L.gguf	Q3_K_L	4.54GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q3_K_S.gguf	Q3_K_S	3.83GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ3_M.gguf	IQ3_M	3.98GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ3_S.gguf	IQ3_S	3.86GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ3_XS.gguf	IQ3_XS	3.68GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ3_XXS.gguf	IQ3_XXS	3.43GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q2_K.gguf	Q2_K	3.33GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.Q2_K_S.gguf	Q2_K_S	3.13GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ2_M.gguf	IQ2_M	3.10GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ2_S.gguf	IQ2_S	2.90GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ2_XS.gguf	IQ2_XS	2.73GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ2_XXS.gguf	IQ2_XXS	2.51GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ1_M.gguf	IQ1_M	2.27GB	✅ 利用可能	✅ IMatrix	❌ いいえ
Mistral-NeMo-Minitron-8B-Base.IQ1_S.gguf	IQ1_S	2.12GB	✅ 利用可能	✅ IMatrix	❌ いいえ

📦 インストール

huggingface-cliを使用してモデルをダウンロードする

huggingface-cliのインストール

huggingface-cliをまだインストールしていない場合は、以下のコマンドを使用してインストールできます。

pip install -U "huggingface_hub[cli]"

指定ファイルのダウンロード

以下のコマンドを使用して、必要な特定のファイルをダウンロードします。

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf" --local-dir ./

分割ファイルのダウンロード

モデルファイルが大きく、複数のファイルに分割されている場合は、以下のコマンドを使用してすべてのファイルをローカルフォルダにダウンロードできます。

huggingface-cli download legraphista/Mistral-NeMo-Minitron-8B-Base-IMat-GGUF --include "Mistral-NeMo-Minitron-8B-Base.Q8_0/*" --local-dir ./
# GGUFファイルを結合する方法は、よくある質問を参照してください。

💻 使用例

Llama.cppを使用した推論

llama.cpp/main -m Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf --color -i -p "prompt here"

📚 ドキュメント

よくある質問

IMatrixがすべての箇所に適用されていないのはなぜですか？

この調査によると、低い量子化レベルのみがimatrix入力から恩恵を受けるようです（hellaswagの結果に基づく）。

分割されたGGUFファイルをどのように結合するか？

gguf-splitツールを取得していることを確認します。
- https://github.com/ggerganov/llama.cpp/releases にアクセスします。
- 最新バージョンから、あなたのシステムに適したzipファイルをダウンロードします。
- ファイルを解凍すると、gguf-splitツールが見つかるはずです。
GGUFファイルブロックがあるフォルダを見つけます（例：Mistral-NeMo-Minitron-8B-Base.Q8_0）。
以下のコマンドを実行してファイルを結合します。

gguf-split --merge Mistral-NeMo-Minitron-8B-Base.Q8_0/Mistral-NeMo-Minitron-8B-Base.Q8_0-00001-of-XXXXX.gguf Mistral-NeMo-Minitron-8B-Base.Q8_0.gguf

gguf-splitが分割ファイルの最初のブロックを指すようにしてください。

何か提案があれば、@legraphista までご連絡ください！

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご