モデル概要
モデル特徴
モデル能力
使用事例
🚀 QwenによるQwen2.5-VL-32B-InstructのLlamacpp imatrix量子化
このプロジェクトは、llama.cpp のリリース b5284 を使用して、Qwen2.5-VL-32B-Instructモデルの量子化を行っています。元のモデルは こちら です。全ての量子化は、ここ のデータセットを用いて、imatrixオプションで行われています。
これらの量子化モデルは、LM Studio で実行することができます。また、llama.cpp や他のllama.cppベースのプロジェクトで直接実行することも可能です。
🚀 クイックスタート
プロンプトフォーマット
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
新機能
最新のllama.cppに更新されています。
ファイルのダウンロード
以下のリンクから、必要なファイル(ブランチ全体ではなく)をダウンロードできます。
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
Qwen2.5-VL-32B-Instruct-bf16.gguf | bf16 | 65.54GB | true | 完全なBF16重み。 |
Qwen2.5-VL-32B-Instruct-Q8_0.gguf | Q8_0 | 34.82GB | false | 非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化。 |
Qwen2.5-VL-32B-Instruct-Q6_K_L.gguf | Q6_K_L | 27.26GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q6_K.gguf | Q6_K | 26.89GB | false | 非常に高品質で、ほぼ完璧で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q5_K_L.gguf | Q5_K_L | 23.74GB | false | 埋め込みと出力の重みにQ8_0を使用。高品質で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q5_K_M.gguf | Q5_K_M | 23.26GB | false | 高品質で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q5_K_S.gguf | Q5_K_S | 22.64GB | false | 高品質で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q4_1.gguf | Q4_1 | 20.64GB | false | レガシーフォーマットで、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが改善されています。 |
Qwen2.5-VL-32B-Instruct-Q4_K_L.gguf | Q4_K_L | 20.43GB | false | 埋め込みと出力の重みにQ8_0を使用。良い品質で、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q4_K_M.gguf | Q4_K_M | 19.85GB | false | 良い品質で、ほとんどのユースケースでのデフォルトサイズ、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q4_K_S.gguf | Q4_K_S | 18.78GB | false | 品質が少し低いですが、より多くのスペースを節約でき、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q4_0.gguf | Q4_0 | 18.71GB | false | レガシーフォーマットで、ARMおよびAVX CPU推論のオンライン再パッキングを提供します。 |
Qwen2.5-VL-32B-Instruct-IQ4_NL.gguf | IQ4_NL | 18.68GB | false | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のオンライン再パッキングを提供します。 |
Qwen2.5-VL-32B-Instruct-Q3_K_XL.gguf | Q3_K_XL | 17.93GB | false | 埋め込みと出力の重みにQ8_0を使用。品質は低いですが使用可能で、低RAM環境に適しています。 |
Qwen2.5-VL-32B-Instruct-IQ4_XS.gguf | IQ4_XS | 17.69GB | false | 適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスを持ち、おすすめ。 |
Qwen2.5-VL-32B-Instruct-Q3_K_L.gguf | Q3_K_L | 17.25GB | false | 品質は低いですが使用可能で、低RAM環境に適しています。 |
Qwen2.5-VL-32B-Instruct-Q3_K_M.gguf | Q3_K_M | 15.94GB | false | 低品質。 |
Qwen2.5-VL-32B-Instruct-IQ3_M.gguf | IQ3_M | 14.81GB | false | 中程度の低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。 |
Qwen2.5-VL-32B-Instruct-Q3_K_S.gguf | Q3_K_S | 14.39GB | false | 低品質で、おすすめしません。 |
Qwen2.5-VL-32B-Instruct-IQ3_XS.gguf | IQ3_XS | 13.71GB | false | 低品質で、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sより少し良い。 |
Qwen2.5-VL-32B-Instruct-Q2_K_L.gguf | Q2_K_L | 13.07GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能。 |
Qwen2.5-VL-32B-Instruct-IQ3_XXS.gguf | IQ3_XXS | 12.84GB | false | 低品質で、適度なパフォーマンスを持つ新しい方法で、Q3量子化に匹敵。 |
Qwen2.5-VL-32B-Instruct-Q2_K.gguf | Q2_K | 12.31GB | false | 非常に低品質ですが、意外と使用可能。 |
Qwen2.5-VL-32B-Instruct-IQ2_M.gguf | IQ2_M | 11.26GB | false | 比較的低品質ですが、最先端の技術を使用しているため、意外と使用可能。 |
Qwen2.5-VL-32B-Instruct-IQ2_S.gguf | IQ2_S | 10.39GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能。 |
Qwen2.5-VL-32B-Instruct-IQ2_XS.gguf | IQ2_XS | 9.96GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能。 |
Qwen2.5-VL-32B-Instruct-IQ2_XXS.gguf | IQ2_XXS | 9.03GB | false | 非常に低品質ですが、最先端の技術を使用しているため、使用可能。 |
📦 インストール
huggingface-cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/Qwen_Qwen2.5-VL-32B-Instruct-GGUF --include "Qwen_Qwen2.5-VL-32B-Instruct-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/Qwen_Qwen2.5-VL-32B-Instruct-GGUF --include "Qwen_Qwen2.5-VL-32B-Instruct-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Qwen_Qwen2.5-VL-32B-Instruct-Q8_0)を指定するか、すべてをその場所にダウンロードすることができます(./)。
🔧 技術詳細
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされており、ARMおよびAVXマシンでのパフォーマンスを向上させるために、1回のパスでより多くのデータをロードしていました。
しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にその場で行われます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。
さらに、少し良い品質を得たい場合は、このPR のおかげでIQ4_NLを使用することができます。これはARM用の重みを再パッキングしますが、現在は4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_X情報を表示するにはクリック(非推奨)
このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上のパフォーマンス向上を示すために残しています。
AVX2システム(EPYC7702)でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (vs Q4_0) |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。
どのファイルを選べばいいですか?
詳細はここをクリック
様々なパフォーマンスを示すグラフ付きの素晴らしい解説が、Artefact2によって ここ で提供されています。
まず、実行できるモデルのサイズを判断する必要があります。これには、持っているシステムメモリ(RAM)とGPUメモリ(VRAM)の量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指しましょう。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選びます。
最高の品質を求める場合は、システムメモリとGPUメモリの合計を計算し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選びます。
次に、「I-量子化」または「K-量子化」のどちらを使用するかを決める必要があります。
あまり考えたくない場合は、K-量子化のいずれかを選びましょう。これらは 'QX_K_X' の形式で、例えばQ5_K_Mのようなものです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で提供されています。
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事を支援したい場合は、こちらのko-fiページを訪れてください:https://ko-fi.com/bartowski









