Mistral - Small - 3.2 - 24B - Instruct - 2506オープンソースモデル - 複数の量子化タイプで異なるハードウェアニーズに対応

ホーム

Mistralai Mistral Small 3.2 24B Instruct 2506 GGUF

bartowskiによって開発

これはMistral-Small-3.2-24B-Instruct-2506モデルのLlamacpp imatrix量子化バージョンで、さまざまな量子化タイプを提供して、異なるハードウェアの要件を満たします。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #多言語指令モデル #効率的な量子化デプロイ #低メモリ最適化

ダウンロード数 3,769

リリース時間 : 6/20/2025

モデル概要

このプロジェクトは、Mistral-Small-3.2-24B-Instruct-2506モデルの異なる量子化バージョンを提供し、異なるハードウェアでのモデルの実行効率とパフォーマンスを最適化することを目的としています。

モデル特徴

複数の量子化タイプ

bf16、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供し、ユーザーは必要に応じて異なる量子化ファイルを選択できます。

パフォーマンス最適化

一部の量子化ファイルは、埋め込みと出力の重みをQ8_0に量子化することで、モデルのパフォーマンスと品質を向上させます。

オンライン再パッケージ化

一部の量子化ファイルはオンライン再パッケージ化をサポートし、自動的にハードウェアパフォーマンスを最適化できます。

モデル能力

テキスト生成

多言語サポート

量子化モデル最適化

使用事例

テキスト生成

多言語テキスト生成

複数の言語のテキスト生成タスクをサポートします。

モデル最適化

ハードウェアパフォーマンス最適化

量子化により、異なるハードウェアでのモデルの実行効率を最適化します。

🚀 Mistral-Small-3.2-24B-Instruct-2506のLlamacpp imatrix量子化バージョン

このプロジェクトは、Mistral-Small-3.2-24B-Instruct-2506モデルに対してLlamacpp imatrix量子化処理を行ったものです。様々な量子化タイプのモデルファイルを提供し、異なるハードウェアと性能要件を満たすことを目的としています。ユーザーは自身のデバイスのメモリと性能に合わせて適切な量子化ファイルを選択し、LM Studioまたはllama.cppベースのプロジェクトで実行することができます。

🔍 プロジェクト情報

属性	詳細
量子化者	bartowski
タスクタイプ	画像テキストからテキスト
サポート言語	英語、フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、日本語、韓国語、ロシア語、中国語、アラビア語、ペルシャ語、インドネシア語、マレー語、ネパール語、ポーランド語、ルーマニア語、セルビア語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、ヒンディー語、ベンガル語
ベースモデル	mistralai/Mistral-Small-3.2-24B-Instruct-2506
ベースモデルの関係	量子化バージョン
ライセンス	Apache-2.0
推論機能	いいえ

⚠️ 重要な注意事項

当社があなたの個人データをどのように処理するかを知りたい場合は、プライバシーポリシーをご覧ください。

🚀 クイックスタート

実行方法

LM Studio：LM Studio で量子化後のモデルを実行できます。
llama.cpp：llama.cpp またはllama.cppベースのプロジェクトを直接使用して実行します。

プロンプト形式

<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]

✨ 主な機能

多様な量子化タイプ：bf16、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供しています。ユーザーは必要に応じて異なる量子化ファイルを選択できます。
オンライン再パッケージ化：一部の量子化ファイルはオンライン再パッケージ化をサポートしており、自動的にハードウェア性能を最適化できます。
性能最適化：一部の量子化ファイルは、埋め込みと出力の重みをQ8_0に量子化することで、モデルの性能と品質を向上させています。

📦 インストール

huggingface-cliのインストール

pip install -U "huggingface_hub[cli]"

単一ファイルのダウンロード

huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf" --local-dir ./

分割ファイルのダウンロード

モデルが50GBを超える場合、複数のファイルに分割されています。以下のコマンドを使用してローカルフォルダにダウンロードできます。

huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0/*" --local-dir ./

💻 使用例

基本的な使用法

LM Studioでダウンロードした量子化ファイルを選択すると、使用を開始できます。

高度な使用法

llama.cppを直接使用してモデルを実行する場合、必要に応じてパラメータを調整し、より良い性能と結果を得ることができます。

📚 ドキュメント

ダウンロードファイルリスト

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Mistral-Small-3.2-24B-Instruct-2506-bf16.gguf	bf16	47.15GB	いいえ	完全なBF16重み。
Mistral-Small-3.2-24B-Instruct-2506-Q8_0.gguf	Q8_0	25.05GB	いいえ	極めて高品質で、通常は必要ありませんが、最大限の利用可能な量子化です。
Mistral-Small-3.2-24B-Instruct-2506-Q6_K_L.gguf	Q6_K_L	19.67GB	いいえ	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q6_K.gguf	Q6_K	19.35GB	いいえ	非常に高品質で、ほぼ完璧で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q5_K_L.gguf	Q5_K_L	17.18GB	いいえ	埋め込みと出力の重みにQ8_0を使用。高品質で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q5_K_M.gguf	Q5_K_M	16.76GB	いいえ	高品質で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q5_K_S.gguf	Q5_K_S	16.30GB	いいえ	高品質で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q4_1.gguf	Q4_1	14.87GB	いいえ	旧形式で、Q4_K_Sと同様の性能ですが、Appleシリコンチップでは1ワットあたりのトークン数が向上します。
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_L.gguf	Q4_K_L	14.83GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質が良好で、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf	Q4_K_M	14.33GB	いいえ	品質が良好で、ほとんどのユースケースのデフォルトサイズで、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_S.gguf	Q4_K_S	13.55GB	いいえ	品質がやや低いですが、より多くのスペースを節約でき、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q4_0.gguf	Q4_0	13.49GB	いいえ	旧形式で、ARMおよびAVX CPU推論のオンライン再パッケージ化を提供します。
Mistral-Small-3.2-24B-Instruct-2506-IQ4_NL.gguf	IQ4_NL	13.47GB	いいえ	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のオンライン再パッケージ化を提供します。
Mistral-Small-3.2-24B-Instruct-2506-Q3_K_XL.gguf	Q3_K_XL	12.99GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質は低いですが利用可能で、低メモリの場合に適しています。
Mistral-Small-3.2-24B-Instruct-2506-IQ4_XS.gguf	IQ4_XS	12.76GB	いいえ	品質が良好で、Q4_K_Sより小さく、性能は似ています、おすすめ。
Mistral-Small-3.2-24B-Instruct-2506-Q3_K_L.gguf	Q3_K_L	12.40GB	いいえ	品質は低いですが利用可能で、低メモリの場合に適しています。
Mistral-Small-3.2-24B-Instruct-2506-Q3_K_M.gguf	Q3_K_M	11.47GB	いいえ	低品質。
Mistral-Small-3.2-24B-Instruct-2506-IQ3_M.gguf	IQ3_M	10.65GB	いいえ	中低品質で、新しい方法で、Q3_K_Mと同等の性能。
Mistral-Small-3.2-24B-Instruct-2506-Q3_K_S.gguf	Q3_K_S	10.40GB	いいえ	低品質で、おすすめしません。
Mistral-Small-3.2-24B-Instruct-2506-IQ3_XS.gguf	IQ3_XS	9.91GB	いいえ	品質は低いですが、新しい方法で、性能は良好で、Q3_K_Sより少し優れています。
Mistral-Small-3.2-24B-Instruct-2506-Q2_K_L.gguf	Q2_K_L	9.55GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質は非常に低いですが、意外と利用可能です。
Mistral-Small-3.2-24B-Instruct-2506-IQ3_XXS.gguf	IQ3_XXS	9.28GB	いいえ	品質は低いですが、新しい方法で、性能は良好で、Q3量子化と同等。
Mistral-Small-3.2-24B-Instruct-2506-Q2_K.gguf	Q2_K	8.89GB	いいえ	品質は非常に低いですが、意外と利用可能です。
Mistral-Small-3.2-24B-Instruct-2506-IQ2_M.gguf	IQ2_M	8.11GB	いいえ	品質は比較的低いですが、SOTA技術を使用しており、意外と利用可能です。
Mistral-Small-3.2-24B-Instruct-2506-IQ2_S.gguf	IQ2_S	7.48GB	いいえ	低品質で、SOTA技術を使用しており、利用可能です。
Mistral-Small-3.2-24B-Instruct-2506-IQ2_XS.gguf	IQ2_XS	7.21GB	いいえ	低品質で、SOTA技術を使用しており、利用可能です。
Mistral-Small-3.2-24B-Instruct-2506-IQ2_XXS.gguf	IQ2_XXS	6.55GB	いいえ	品質は非常に低いですが、SOTA技術を使用しており、利用可能です。

埋め込み/出力重み

一部の量子化ファイル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を採用し、埋め込みと出力の重みをデフォルト値ではなくQ8_0に量子化しています。

ARM/AVX情報

以前は、ユーザーはQ4_0_4_4/4_8/8_8ファイルをダウンロードしていました。これらのファイルの重みは、ARMとAVXマシンの性能を向上させるためにメモリ内で交差配置されていました。現在は、「オンライン再パッケージ化」機能があり、詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッケージ化に適している場合、システムは自動的に最適化を行います。

llama.cppのビルド b4282 以降では、Q4_0_X_Xファイルを実行できなくなりました。Q4_0を使用する必要があります。また、このPR によると、IQ4_NLを使用するとより良い品質が得られ、ARM用に重みを再パッケージ化することもできますが、現在は4_4のみサポートされています。ロード時間は遅くなる可能性がありますが、全体的な速度は向上します。

ファイルの選択方法

詳細を表示するにはクリック

Artefact2は、様々な性能を示す素晴らしいグラフ付きの記事を提供しています。こちらをクリックして確認できます。

まず、実行できるモデルのサイズを決定します。これには、持っているRAMおよび/またはVRAMの容量を把握する必要があります。

最高速度を追求する場合：モデルをできるだけ速く実行したい場合は、モデル全体をGPUのVRAMに入れる必要があります。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化ファイルを選択してください。
最高品質を追求する場合：絶対的な最高品質を追求する場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化ファイルを選択してください。

次に、「I量子化」または「K量子化」を使用するかを決定する必要があります。