モデル概要
モデル特徴
モデル能力
使用事例
🚀 Delta-VectorによるAustral-24B-WintonのLlamacpp imatrix量子化
このプロジェクトは、Delta-VectorによるAustral-24B-Wintonモデルの量子化バージョンを提供します。量子化にはllama.cppを使用しており、様々な量子化タイプのモデルを提供しています。
🚀 クイックスタート
量子化には、llama.cppのリリース b5669 を使用しています。 元のモデルはこちら: https://huggingface.co/Delta-Vector/Austral-24B-Winton
すべての量子化モデルは、ここ のデータセットを使用して、imatrixオプションで作成されています。
実行方法
✨ 主な機能
- 様々な量子化タイプのモデルを提供し、メモリ使用量と性能のバランスを調整できます。
- 一部の量子化モデルは、埋め込みと出力の重みをQ8_0に量子化しており、高品質な出力を提供します。
- ARMとAVXマシンでの性能向上のためのオンライン再パッキング機能をサポートしています。
📦 インストール
huggingface-cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、hugginface-cliがインストールされていることを確認してください:
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます:
huggingface-cli download bartowski/Delta-Vector_Austral-24B-Winton-GGUF --include "Delta-Vector_Austral-24B-Winton-Q4_K_M.gguf" --local-dir ./
モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下を実行します:
huggingface-cli download bartowski/Delta-Vector_Austral-24B-Winton-GGUF --include "Delta-Vector_Austral-24B-Winton-Q8_0/*" --local-dir ./
新しいローカルディレクトリ (Delta-Vector_Austral-24B-Winton-Q8_0) を指定するか、すべてを同じ場所 (./) にダウンロードすることができます。
💻 使用例
プロンプトフォーマット
チャットテンプレートが指定されていないため、デフォルトのものが使用されます。これは正しくない場合があるため、元のモデルカードを確認してください。
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📚 ドキュメント
ダウンロードファイルの選択
詳細はここをクリック
様々な性能を示すチャート付きの素晴らしい解説がArtefact2によって ここ に提供されています。
まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択します。
次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantを選択してください。これらは 'QX_K_X' の形式で、Q5_K_M のようなものです。
もっと詳細を知りたい場合は、この非常に便利な機能チャートを確認できます:
基本的に、Q4以下を目指し、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_M のようなものです。これらは新しく、サイズに対してより良い性能を提供します。
これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度と性能のトレードオフを決定する必要があります。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされていました。これは、ARMおよびAVXマシンでの性能を向上させるために、一度により多くのデータを読み込むことができるようにするためです。
しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にオンザフライで行われます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。
さらに、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができ、少し品質を向上させることができます。ただし、現在は4_4のみです。読み込み時間は遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_X情報を表示するにはクリック (非推奨)
このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上の性能向上を示すために残しています。
AVX2システム (EPYC7702) でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (vs Q4_0) |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな向上をもたらし、テキスト生成にも小さな向上をもたらします。
埋め込み/出力重み
これらの量子化モデルの一部 (Q3_K_XL、Q4_K_Lなど) は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。
ダウンロード可能なファイル
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
Austral-24B-Winton-bf16.gguf | bf16 | 47.15GB | false | 完全なBF16重み。 |
Austral-24B-Winton-Q8_0.gguf | Q8_0 | 25.05GB | false | 非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。 |
Austral-24B-Winton-Q6_K_L.gguf | Q6_K_L | 19.67GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。 |
Austral-24B-Winton-Q6_K.gguf | Q6_K | 19.35GB | false | 非常に高品質で、ほぼ完璧で、推奨。 |
Austral-24B-Winton-Q5_K_L.gguf | Q5_K_L | 17.18GB | false | 埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。 |
Austral-24B-Winton-Q5_K_M.gguf | Q5_K_M | 16.76GB | false | 高品質で、推奨。 |
Austral-24B-Winton-Q5_K_S.gguf | Q5_K_S | 16.30GB | false | 高品質で、推奨。 |
Austral-24B-Winton-Q4_1.gguf | Q4_1 | 14.87GB | false | レガシー形式で、Q4_K_Sと同様の性能ですが、Appleシリコンでのトークン/ワットが向上しています。 |
Austral-24B-Winton-Q4_K_L.gguf | Q4_K_L | 14.83GB | false | 埋め込みと出力の重みにQ8_0を使用。良い品質で、推奨。 |
Austral-24B-Winton-Q4_K_M.gguf | Q4_K_M | 14.33GB | false | 良い品質で、ほとんどの使用ケースでのデフォルトサイズ、推奨。 |
Austral-24B-Winton-Q4_K_S.gguf | Q4_K_S | 13.55GB | false | 品質が少し低いが、より多くのスペースを節約できる、推奨。 |
Austral-24B-Winton-Q4_0.gguf | Q4_0 | 13.49GB | false | レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。 |
Austral-24B-Winton-IQ4_NL.gguf | IQ4_NL | 13.47GB | false | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。 |
Austral-24B-Winton-Q3_K_XL.gguf | Q3_K_XL | 12.99GB | false | 埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。 |
Austral-24B-Winton-IQ4_XS.gguf | IQ4_XS | 12.76GB | false | まともな品質で、Q4_K_Sよりも小さく、同様の性能を持つ、推奨。 |
Austral-24B-Winton-Q3_K_L.gguf | Q3_K_L | 12.40GB | false | 品質は低いが使用可能で、低RAM環境に適しています。 |
Austral-24B-Winton-Q3_K_M.gguf | Q3_K_M | 11.47GB | false | 低品質。 |
Austral-24B-Winton-IQ3_M.gguf | IQ3_M | 10.65GB | false | 中程度の低品質で、Q3_K_Mに匹敵するまともな性能を持つ新しい方法。 |
Austral-24B-Winton-Q3_K_S.gguf | Q3_K_S | 10.40GB | false | 低品質で、推奨されません。 |
Austral-24B-Winton-IQ3_XS.gguf | IQ3_XS | 9.91GB | false | 品質は低いが、まともな性能を持つ新しい方法で、Q3_K_Sよりも少し良い。 |
Austral-24B-Winton-Q2_K_L.gguf | Q2_K_L | 9.55GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に低い品質ですが、意外と使用可能です。 |
Austral-24B-Winton-IQ3_XXS.gguf | IQ3_XXS | 9.28GB | false | 品質は低いが、まともな性能を持つ新しい方法で、Q3量子化に匹敵します。 |
Austral-24B-Winton-Q2_K.gguf | Q2_K | 8.89GB | false | 非常に低い品質ですが、意外と使用可能です。 |
Austral-24B-Winton-IQ2_M.gguf | IQ2_M | 8.11GB | false | 比較的低い品質ですが、SOTA技術を使用して意外と使用可能です。 |
Austral-24B-Winton-IQ2_S.gguf | IQ2_S | 7.48GB | false | 低品質ですが、SOTA技術を使用して使用可能です。 |
Austral-24B-Winton-IQ2_XS.gguf | IQ2_XS | 7.21GB | false | 低品質ですが、SOTA技術を使用して使用可能です。 |
🔧 技術詳細
この量子化プロセスでは、llama.cpp のリリース b5669 を使用しています。特定のデータセットとimatrixオプションを用いて、様々な量子化タイプのモデルを生成しています。
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で提供されています。
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事をサポートしたい場合は、こちらのko-fiページを訪問してください: https://ko-fi.com/bartowski



