🚀 Mistral-Small-3.2-24B-Instruct-2506のLlamacpp imatrix量子化バージョン
このプロジェクトは、Mistral-Small-3.2-24B-Instruct-2506モデルに対してLlamacpp imatrix量子化処理を行ったものです。様々な量子化タイプのモデルファイルを提供し、異なるハードウェアと性能要件を満たすことを目的としています。ユーザーは自身のデバイスのメモリと性能に合わせて適切な量子化ファイルを選択し、LM Studioまたはllama.cppベースのプロジェクトで実行することができます。
🔍 プロジェクト情報
属性 |
詳細 |
量子化者 |
bartowski |
タスクタイプ |
画像テキストからテキスト |
サポート言語 |
英語、フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、日本語、韓国語、ロシア語、中国語、アラビア語、ペルシャ語、インドネシア語、マレー語、ネパール語、ポーランド語、ルーマニア語、セルビア語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、ヒンディー語、ベンガル語 |
ベースモデル |
mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
ベースモデルの関係 |
量子化バージョン |
ライセンス |
Apache-2.0 |
推論機能 |
いいえ |
⚠️ 重要な注意事項
当社があなたの個人データをどのように処理するかを知りたい場合は、プライバシーポリシーをご覧ください。
🚀 クイックスタート
実行方法
- LM Studio:LM Studio で量子化後のモデルを実行できます。
- llama.cpp:llama.cpp またはllama.cppベースのプロジェクトを直接使用して実行します。
プロンプト形式
<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]
✨ 主な機能
- 多様な量子化タイプ:bf16、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供しています。ユーザーは必要に応じて異なる量子化ファイルを選択できます。
- オンライン再パッケージ化:一部の量子化ファイルはオンライン再パッケージ化をサポートしており、自動的にハードウェア性能を最適化できます。
- 性能最適化:一部の量子化ファイルは、埋め込みと出力の重みをQ8_0に量子化することで、モデルの性能と品質を向上させています。
📦 インストール
huggingface-cliのインストール
pip install -U "huggingface_hub[cli]"
単一ファイルのダウンロード
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf" --local-dir ./
分割ファイルのダウンロード
モデルが50GBを超える場合、複数のファイルに分割されています。以下のコマンドを使用してローカルフォルダにダウンロードできます。
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0/*" --local-dir ./
💻 使用例
基本的な使用法
LM Studioでダウンロードした量子化ファイルを選択すると、使用を開始できます。
高度な使用法
llama.cppを直接使用してモデルを実行する場合、必要に応じてパラメータを調整し、より良い性能と結果を得ることができます。
📚 ドキュメント
ダウンロードファイルリスト
埋め込み/出力重み
一部の量子化ファイル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法を採用し、埋め込みと出力の重みをデフォルト値ではなくQ8_0に量子化しています。
ARM/AVX情報
以前は、ユーザーはQ4_0_4_4/4_8/8_8ファイルをダウンロードしていました。これらのファイルの重みは、ARMとAVXマシンの性能を向上させるためにメモリ内で交差配置されていました。現在は、「オンライン再パッケージ化」機能があり、詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッケージ化に適している場合、システムは自動的に最適化を行います。
llama.cppのビルド b4282 以降では、Q4_0_X_Xファイルを実行できなくなりました。Q4_0を使用する必要があります。また、このPR によると、IQ4_NLを使用するとより良い品質が得られ、ARM用に重みを再パッケージ化することもできますが、現在は4_4のみサポートされています。ロード時間は遅くなる可能性がありますが、全体的な速度は向上します。
ファイルの選択方法
詳細を表示するにはクリック
Artefact2は、様々な性能を示す素晴らしいグラフ付きの記事を提供しています。こちらをクリック して確認できます。
まず、実行できるモデルのサイズを決定します。これには、持っているRAMおよび/またはVRAMの容量を把握する必要があります。
- 最高速度を追求する場合:モデルをできるだけ速く実行したい場合は、モデル全体をGPUのVRAMに入れる必要があります。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化ファイルを選択してください。
- 最高品質を追求する場合:絶対的な最高品質を追求する場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化ファイルを選択してください。
次に、「I量子化」または「K量子化」を使用するかを決定する必要があります。
- 簡単な選択:あまり考えたくない場合は、K量子化を選択してください。これらのファイルの形式は「QX_K_X」で、例えばQ5_K_Mです。
- 詳細な調査:詳細を調べたい場合は、この非常に便利な機能グラフを参照してください。llama.cpp機能マトリックス。
一般的に、Q4より低い量子化を目標とし、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用する場合は、I量子化を検討する必要があります。これらのファイルの形式はIQX_Xで、例えばIQ3_Mです。これらは新しい形式で、同じサイズでより良い性能を提供します。
I量子化はCPUでも使用できますが、対応するK量子化よりも速度が遅くなるため、速度と性能の間でトレードオフを行う必要があります。
🔧 技術詳細
このプロジェクトでは、llama.cpp のリリースバージョン b5697 を使用して量子化を行っています。すべての量子化ファイルはimatrixオプションを使用し、ここ のデータセットを使用しています。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。
謝辞
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力実験のアイデアを提供してくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事をサポートしたい場合は、私のko-fiページにアクセスしてください。https://ko-fi.com/bartowski