モデル概要
モデル特徴
モデル能力
使用事例
🚀 EXAONE-3.5-32B-InstructのLlamacpp imatrix量子化
EXAONE-3.5-32B-Instructの量子化モデルに関する情報です。この量子化には、llama.cppのリリース b4273 を使用しています。
🚀 クイックスタート
- 元のモデル: LGAI-EXAONE/EXAONE-3.5-32B-Instruct
- すべての量子化モデルは、こちら のデータセットを使用して、imatrixオプションで作成されています。
- これらのモデルは LM Studio で実行できます。
✨ 主な機能
- 様々な量子化タイプのモデルを提供し、ユーザーのハードウェア環境に合わせて選択できます。
- 一部の量子化モデルは、埋め込みと出力の重みをQ8_0に量子化しており、品質が向上しています。
📦 インストール
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/EXAONE-3.5-32B-Instruct-GGUF --include "EXAONE-3.5-32B-Instruct-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/EXAONE-3.5-32B-Instruct-GGUF --include "EXAONE-3.5-32B-Instruct-Q8_0/*" --local-dir ./
新しいローカルディレクトリを指定するか、現在のディレクトリ (./) にダウンロードすることができます。
💻 使用例
プロンプトフォーマット
[|system|]{system_prompt}[|endofturn|]
[|user|]{prompt}
[|assistant|]
ダウンロード可能なファイル一覧
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
EXAONE-3.5-32B-Instruct-f16.gguf | f16 | 64.01GB | true | 完全なF16重み。 |
EXAONE-3.5-32B-Instruct-Q8_0.gguf | Q8_0 | 34.01GB | false | 非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化。 |
EXAONE-3.5-32B-Instruct-Q6_K_L.gguf | Q6_K_L | 26.51GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。 |
EXAONE-3.5-32B-Instruct-Q6_K.gguf | Q6_K | 26.26GB | false | 非常に高品質で、ほぼ完璧で、推奨。 |
EXAONE-3.5-32B-Instruct-Q5_K_L.gguf | Q5_K_L | 23.02GB | false | 埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。 |
EXAONE-3.5-32B-Instruct-Q5_K_M.gguf | Q5_K_M | 22.70GB | false | 高品質で、推奨。 |
EXAONE-3.5-32B-Instruct-Q5_K_S.gguf | Q5_K_S | 22.08GB | false | 高品質で、推奨。 |
EXAONE-3.5-32B-Instruct-Q4_K_L.gguf | Q4_K_L | 19.73GB | false | 埋め込みと出力の重みにQ8_0を使用。良好な品質で、推奨。 |
EXAONE-3.5-32B-Instruct-Q4_K_M.gguf | Q4_K_M | 19.34GB | false | 良好な品質で、ほとんどのユースケースでのデフォルトサイズ、推奨。 |
EXAONE-3.5-32B-Instruct-Q4_K_S.gguf | Q4_K_S | 18.29GB | false | 品質がやや低いが、より多くのスペースを節約できる、推奨。 |
EXAONE-3.5-32B-Instruct-Q4_0.gguf | Q4_0 | 18.21GB | false | レガシーフォーマットで、ARM CPU推論用のオンライン再パッキングを提供。 |
EXAONE-3.5-32B-Instruct-IQ4_NL.gguf | IQ4_NL | 18.19GB | false | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供。 |
EXAONE-3.5-32B-Instruct-Q4_0_8_8.gguf | Q4_0_8_8 | 18.14GB | false | ARMとAVX推論用に最適化されています。ARMには 'sve' サポートが必要です (詳細は以下を参照)。Macでは使用しないでください。 |
EXAONE-3.5-32B-Instruct-Q4_0_4_8.gguf | Q4_0_4_8 | 18.14GB | false | ARM推論用に最適化されています。 'i8mm' サポートが必要です (詳細は以下を参照)。Macでは使用しないでください。 |
EXAONE-3.5-32B-Instruct-Q4_0_4_4.gguf | Q4_0_4_4 | 18.14GB | false | ARM推論用に最適化されています。すべてのARMチップでうまく動作するはずですが、GPUでは使用できません。Macでは使用しないでください。 |
EXAONE-3.5-32B-Instruct-Q3_K_XL.gguf | Q3_K_XL | 17.25GB | false | 埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。 |
EXAONE-3.5-32B-Instruct-IQ4_XS.gguf | IQ4_XS | 17.21GB | false | 適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨。 |
EXAONE-3.5-32B-Instruct-Q3_K_L.gguf | Q3_K_L | 16.80GB | false | 品質は低いが使用可能で、低RAM環境に適しています。 |
EXAONE-3.5-32B-Instruct-Q3_K_M.gguf | Q3_K_M | 15.49GB | false | 低品質。 |
EXAONE-3.5-32B-Instruct-IQ3_M.gguf | IQ3_M | 14.38GB | false | 中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。 |
EXAONE-3.5-32B-Instruct-Q3_K_S.gguf | Q3_K_S | 13.96GB | false | 低品質で、推奨しません。 |
EXAONE-3.5-32B-Instruct-IQ3_XS.gguf | IQ3_XS | 13.28GB | false | 品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良い。 |
EXAONE-3.5-32B-Instruct-Q2_K_L.gguf | Q2_K_L | 12.44GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。 |
EXAONE-3.5-32B-Instruct-Q2_K.gguf | Q2_K | 11.93GB | false | 非常に低品質ですが、意外と使用可能です。 |
EXAONE-3.5-32B-Instruct-IQ2_M.gguf | IQ2_M | 10.90GB | false | 比較的低品質ですが、最先端の技術を使用して意外と使用可能です。 |
EXAONE-3.5-32B-Instruct-IQ2_S.gguf | IQ2_S | 10.03GB | false | 低品質ですが、最先端の技術を使用して使用可能です。 |
EXAONE-3.5-32B-Instruct-IQ2_XS.gguf | IQ2_XS | 9.62GB | false | 低品質ですが、最先端の技術を使用して使用可能です。 |
EXAONE-3.5-32B-Instruct-IQ2_XXS.gguf | IQ2_XXS | 8.70GB | false | 非常に低品質ですが、最先端の技術を使用して使用可能です。 |
📚 ドキュメント
埋め込み/出力の重み
一部の量子化モデル (Q3_K_XL、Q4_K_Lなど) は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルト値ではなく、Q8_0に量子化されています。
Q4_0_X_Xに関する情報
新機能: このPR で行われた重みのオンライン再パッキングの努力により、llama.cppがARMデバイス用にコンパイルされている場合、Q4_0を使用できるようになりました。 同様に、少しパフォーマンスを向上させたい場合は、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用できます (現時点では4_4のみ)。読み込み時間は遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_Xの情報を表示するにはクリックしてください
これらは、Metal (Apple) またはGPU (nvidia/AMD/intel) のオフロードには使用できません。ARMチップ (および特定のAVX2/AVX512 CPU) のみに対応しています。 ARMチップを使用している場合、Q4_0_X_X量子化は大幅な速度向上をもたらします。Q4_0_4_4の速度比較は、[元のプルリクエスト](https://github.com/ggerganov/llama.cpp/pull/5780#pullrequestreview-21657544660) を参照してください。 どの量子化があなたのARMチップで最適かを確認するには、[AArch64 SoC機能](https://gpages.juszkiewicz.com.pl/arm-socs-table/arm-socs.html) を確認できます (EloyOnに感謝!)。 AVX2またはAVX512をサポートするCPU (通常はサーバーCPUとAMDの最新のZen5 CPU) を使用しており、GPUにオフロードしていない場合、Q4_0_8_8も良好な速度を提供する可能性があります。AVX2システム (EPYC7702) のベンチマークを表示するにはクリックしてください
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (vs Q4_0) |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大幅な向上をもたらし、テキスト生成にも若干の向上をもたらします。
どのファイルを選べばいいですか?
詳細はここをクリック
様々なパフォーマンスを示すグラフ付きの素晴らしい解説記事が、Artefact2によって [こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9) で提供されています。 まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。 モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択してください。 最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選択してください。 次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。 あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' 形式で、Q5_K_Mのようになります。 もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。 [llama.cpp機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix) 基本的に、Q4以下を目指しており、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_X形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。 これらのI-quantは、CPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。 I-quantはVulcanと互換性がありません。VulcanもAMDのものです。したがって、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。📄 ライセンス
このプロジェクトは EXAONEライセンス の下で提供されています。
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。 埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。 私の仕事をサポートしたい場合は、こちら のko-fiページを訪問してください。



