Delta - Vector_Austral - 24B - Winton - GGUFオープンソースモデル - 様々なハードウェアに適合して効率的に動作

ホーム

Delta Vector Austral 24B Winton GGUF

bartowskiによって開発

Delta-VectorのAustral-24B-Wintonモデルの量子化バージョンで、llama.cppツールを使用して量子化処理を行い、さまざまなハードウェア構成での効率的な実行に適しています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #高精度量子化 #多ハードウェア適合 #大規模言語モデル

ダウンロード数 421

リリース時間 : 6/16/2025

モデル概要

このモデルはAustral-24B-Wintonの量子化バージョンで、llama.cppツールを使用して量子化処理を行い、さまざまなハードウェア構成と使用ニーズに対応するために複数の量子化タイプを提供します。

モデル特徴

多量子化タイプ

複数の量子化タイプ（bf16、Q8_0、Q6_K_Lなど）を提供し、さまざまな品質とパフォーマンスのニーズを満たします。

オンライン再パッケージ化

一部の量子化タイプはオンライン再パッケージ化をサポートし、ハードウェアに応じて自動的にパフォーマンスを最適化できます。

異なる使用シーンへの適合

さまざまなハードウェア構成と使用ニーズに対して、詳細な選択提案を提供します。

モデル能力

テキスト生成

効率的な推論

多ハードウェア適合

使用事例

効率的な推論

低構成ハードウェアでの実行

適切な量子化バージョンを選択することで、低構成ハードウェアでもモデルを効率的に実行できます。

推論速度を向上させ、ハードウェア要件を低減します。

高品質テキスト生成

高品質量子化バージョン（Q6_K_Lなど）を使用してテキスト生成を行います。

元のモデルに近い品質のテキストを生成します。

🚀 Delta-VectorによるAustral-24B-WintonのLlamacpp imatrix量子化

このプロジェクトは、Delta-VectorによるAustral-24B-Wintonモデルの量子化バージョンを提供します。量子化にはllama.cppを使用しており、様々な量子化タイプのモデルを提供しています。

🚀 クイックスタート

量子化には、llama.cppのリリース b5669 を使用しています。元のモデルはこちら: https://huggingface.co/Delta-Vector/Austral-24B-Winton

すべての量子化モデルは、ここのデータセットを使用して、imatrixオプションで作成されています。

実行方法

LM Studio で実行することができます。
llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。

✨ 主な機能

様々な量子化タイプのモデルを提供し、メモリ使用量と性能のバランスを調整できます。
一部の量子化モデルは、埋め込みと出力の重みをQ8_0に量子化しており、高品質な出力を提供します。
ARMとAVXマシンでの性能向上のためのオンライン再パッキング機能をサポートしています。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます:

huggingface-cli download bartowski/Delta-Vector_Austral-24B-Winton-GGUF --include "Delta-Vector_Austral-24B-Winton-Q4_K_M.gguf" --local-dir ./

モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下を実行します:

huggingface-cli download bartowski/Delta-Vector_Austral-24B-Winton-GGUF --include "Delta-Vector_Austral-24B-Winton-Q8_0/*" --local-dir ./

新しいローカルディレクトリ (Delta-Vector_Austral-24B-Winton-Q8_0) を指定するか、すべてを同じ場所 (./) にダウンロードすることができます。

💻 使用例

プロンプトフォーマット

チャットテンプレートが指定されていないため、デフォルトのものが使用されます。これは正しくない場合があるため、元のモデルカードを確認してください。

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 ドキュメント

ダウンロードファイルの選択

詳細はここをクリック

様々な性能を示すチャート付きの素晴らしい解説がArtefact2によってここに提供されています。

まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。

絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択します。

次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantを選択してください。これらは 'QX_K_X' の形式で、Q5_K_M のようなものです。

もっと詳細を知りたい場合は、この非常に便利な機能チャートを確認できます:

llama.cpp機能マトリックス

基本的に、Q4以下を目指し、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_M のようなものです。これらは新しく、サイズに対してより良い性能を提供します。

これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度と性能のトレードオフを決定する必要があります。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされていました。これは、ARMおよびAVXマシンでの性能を向上させるために、一度により多くのデータを読み込むことができるようにするためです。

しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にオンザフライで行われます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

さらに、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができ、少し品質を向上させることができます。ただし、現在は4_4のみです。読み込み時間は遅くなる可能性がありますが、全体的な速度が向上します。

Q4_0_X_X情報を表示するにはクリック (非推奨)

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上の性能向上を示すために残しています。

AVX2システム (EPYC7702) でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大きな向上をもたらし、テキスト生成にも小さな向上をもたらします。

埋め込み/出力重み

これらの量子化モデルの一部 (Q3_K_XL、Q4_K_Lなど) は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。

ダウンロード可能なファイル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Austral-24B-Winton-bf16.gguf	bf16	47.15GB	false	完全なBF16重み。
Austral-24B-Winton-Q8_0.gguf	Q8_0	25.05GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
Austral-24B-Winton-Q6_K_L.gguf	Q6_K_L	19.67GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
Austral-24B-Winton-Q6_K.gguf	Q6_K	19.35GB	false	非常に高品質で、ほぼ完璧で、推奨。
Austral-24B-Winton-Q5_K_L.gguf	Q5_K_L	17.18GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
Austral-24B-Winton-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高品質で、推奨。
Austral-24B-Winton-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高品質で、推奨。
Austral-24B-Winton-Q4_1.gguf	Q4_1	14.87GB	false	レガシー形式で、Q4_K_Sと同様の性能ですが、Appleシリコンでのトークン/ワットが向上しています。
Austral-24B-Winton-Q4_K_L.gguf	Q4_K_L	14.83GB	false	埋め込みと出力の重みにQ8_0を使用。良い品質で、推奨。
Austral-24B-Winton-Q4_K_M.gguf	Q4_K_M	14.33GB	false	良い品質で、ほとんどの使用ケースでのデフォルトサイズ、推奨。
Austral-24B-Winton-Q4_K_S.gguf	Q4_K_S	13.55GB	false	品質が少し低いが、より多くのスペースを節約できる、推奨。
Austral-24B-Winton-Q4_0.gguf	Q4_0	13.49GB	false	レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。
Austral-24B-Winton-IQ4_NL.gguf	IQ4_NL	13.47GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。
Austral-24B-Winton-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Austral-24B-Winton-IQ4_XS.gguf	IQ4_XS	12.76GB	false	まともな品質で、Q4_K_Sよりも小さく、同様の性能を持つ、推奨。
Austral-24B-Winton-Q3_K_L.gguf	Q3_K_L	12.40GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Austral-24B-Winton-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低品質。
Austral-24B-Winton-IQ3_M.gguf	IQ3_M	10.65GB	false	中程度の低品質で、Q3_K_Mに匹敵するまともな性能を持つ新しい方法。
Austral-24B-Winton-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低品質で、推奨されません。
Austral-24B-Winton-IQ3_XS.gguf	IQ3_XS	9.91GB	false	品質は低いが、まともな性能を持つ新しい方法で、Q3_K_Sよりも少し良い。
Austral-24B-Winton-Q2_K_L.gguf	Q2_K_L	9.55GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低い品質ですが、意外と使用可能です。
Austral-24B-Winton-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	品質は低いが、まともな性能を持つ新しい方法で、Q3量子化に匹敵します。
Austral-24B-Winton-Q2_K.gguf	Q2_K	8.89GB	false	非常に低い品質ですが、意外と使用可能です。
Austral-24B-Winton-IQ2_M.gguf	IQ2_M	8.11GB	false	比較的低い品質ですが、SOTA技術を使用して意外と使用可能です。
Austral-24B-Winton-IQ2_S.gguf	IQ2_S	7.48GB	false	低品質ですが、SOTA技術を使用して使用可能です。
Austral-24B-Winton-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低品質ですが、SOTA技術を使用して使用可能です。