モデル概要
モデル特徴
モデル能力
使用事例
🚀 Delta-VectorのAustral-70B-WintonのLlamacpp imatrix量子化バージョン
このプロジェクトは、Delta-VectorのAustral-70B-Wintonモデルに対する量子化処理を行ったものです。量子化技術を利用することで、モデルの保存と計算に必要なリソースをある程度削減し、同時に良好な性能を維持することができ、リソースに制限のあるシーンに適しています。
🔍 基本情報
属性 | 詳細 |
---|---|
量子化者 | bartowski |
タスクタイプ | テキスト生成 |
ベースモデル | Delta-Vector/Austral-70B-Winton |
ベースモデルとの関係 | 量子化バージョン |
ライセンス | apache-2.0 |
言語 | 英語 |
タグ | ロールプレイ、微調整、axolotl、アドベンチャー、創造的な執筆、llama、70B、KTO、RL |
🚀 クイックスタート
llama.cpp の b5753 バージョンを使用して量子化を行います。 元のモデルのアドレス:https://huggingface.co/Delta-Vector/Austral-70B-Winton すべての量子化モデルはimatrixオプションを使用し、ここ のデータセットを組み合わせて生成されています。 これらの量子化モデルは、LM Studio で実行することもできますし、直接 llama.cpp または他のllama.cppベースのプロジェクトを使用して実行することもできます。
✨ 主な機能
プロンプト形式
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
ファイルのダウンロード
以下のリストから単一のファイル(ブランチ全体ではなく)をダウンロードすることができます。
ファイル名 | 量子化タイプ | ファイルサイズ | 分割有無 | 説明 |
---|---|---|---|---|
Austral-70B-Winton-Q8_0.gguf | Q8_0 | 74.98GB | true | 非常に高い品質で、通常は必要ありませんが、利用可能な最高の量子化レベルです。 |
Austral-70B-Winton-Q6_K.gguf | Q6_K | 57.89GB | true | 非常に高い品質で、ほぼ完璧です。推奨 |
Austral-70B-Winton-Q5_K_M.gguf | Q5_K_M | 49.95GB | true | 高品質です。推奨 |
Austral-70B-Winton-Q5_K_S.gguf | Q5_K_S | 48.66GB | false | 高品質です。推奨 |
Austral-70B-Winton-Q4_1.gguf | Q4_1 | 44.31GB | false | 旧形式で、Q4_K_Sと同様の性能を持ち、Appleシリコンチップでの1ワットあたりのトークン数が向上しています。 |
Austral-70B-Winton-Q4_K_L.gguf | Q4_K_L | 43.30GB | false | 埋め込みと出力の重みにQ8_0を使用しています。品質は良好で、推奨 |
Austral-70B-Winton-Q4_K_M.gguf | Q4_K_M | 42.52GB | false | 品質は良好で、ほとんどのユースケースのデフォルトサイズです。推奨 |
Austral-70B-Winton-Q4_K_S.gguf | Q4_K_S | 40.35GB | false | 品質はやや低いですが、より多くのスペースを節約します。推奨 |
Austral-70B-Winton-Q4_0.gguf | Q4_0 | 40.12GB | false | 旧形式で、ARMおよびAVX CPUの推論にオンライン再パッキング機能を提供します。 |
Austral-70B-Winton-IQ4_NL.gguf | IQ4_NL | 40.05GB | false | IQ4_XSに似ていますが、やや大きいです。ARM CPUの推論にオンライン再パッキング機能を提供します。 |
Austral-70B-Winton-Q3_K_XL.gguf | Q3_K_XL | 38.06GB | false | 埋め込みと出力の重みにQ8_0を使用しています。品質は低いですが利用可能で、低メモリのシーンに適しています。 |
Austral-70B-Winton-IQ4_XS.gguf | IQ4_XS | 37.90GB | false | 品質はまあまあで、Q4_K_Sより小さく、性能は似ています。推奨 |
Austral-70B-Winton-Q3_K_L.gguf | Q3_K_L | 37.14GB | false | 品質は低いですが利用可能で、低メモリのシーンに適しています。 |
Austral-70B-Winton-Q3_K_M.gguf | Q3_K_M | 34.27GB | false | 低品質です。 |
Austral-70B-Winton-IQ3_M.gguf | IQ3_M | 31.94GB | false | 中低品質で、新しい方法で、Q3_K_Mと同等の性能を持ちます。 |
Austral-70B-Winton-Q3_K_S.gguf | Q3_K_S | 30.91GB | false | 低品質で、推奨しません。 |
Austral-70B-Winton-IQ3_XS.gguf | IQ3_XS | 29.31GB | false | 品質は低いですが、新しい方法で、性能はまあまあで、Q3_K_Sよりやや優れています。 |
Austral-70B-Winton-IQ3_XXS.gguf | IQ3_XXS | 27.47GB | false | 品質は低いですが、新しい方法で、性能はまあまあで、Q3量子化レベルと同等です。 |
Austral-70B-Winton-Q2_K_L.gguf | Q2_K_L | 27.40GB | false | 埋め込みと出力の重みにQ8_0を使用しています。品質は非常に低いですが、意外にも利用可能です。 |
Austral-70B-Winton-Q2_K.gguf | Q2_K | 26.38GB | false | 品質は非常に低いですが、意外にも利用可能です。 |
Austral-70B-Winton-IQ2_M.gguf | IQ2_M | 24.12GB | false | 品質は比較的低いですが、最先端の技術を使用しており、意外にも利用可能です。 |
Austral-70B-Winton-IQ2_S.gguf | IQ2_S | 22.24GB | false | 品質は低いですが、最先端の技術を使用しており、利用可能です。 |
Austral-70B-Winton-IQ2_XS.gguf | IQ2_XS | 21.14GB | false | 品質は低いですが、最先端の技術を使用しており、利用可能です。 |
Austral-70B-Winton-IQ2_XXS.gguf | IQ2_XXS | 19.10GB | false | 品質は非常に低いですが、最先端の技術を使用しており、利用可能です。 |
Austral-70B-Winton-IQ1_M.gguf | IQ1_M | 16.75GB | false | 品質は非常に低いです。推奨しません |
埋め込み/出力の重み
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は標準的な量子化方法を採用していますが、その埋め込みと出力の重みは通常のデフォルト値ではなく、Q8_0に量子化されています。
📦 インストール
huggingface-cliを使用したダウンロード
ダウンロードの説明を表示するにはクリック
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードする特定のファイルを指定することができます。
huggingface-cli download bartowski/Delta-Vector_Austral-70B-Winton-GGUF --include "Delta-Vector_Austral-70B-Winton-Q4_K_M.gguf" --local-dir ./
モデルのサイズが50GBを超える場合、複数のファイルに分割されます。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/Delta-Vector_Austral-70B-Winton-GGUF --include "Delta-Vector_Austral-70B-Winton-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Delta-Vector_Austral-70B-Winton-Q8_0など)を指定することもできますし、すべてを現在のディレクトリ(./)にダウンロードすることもできます。
🔧 技術詳細
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードしていました。これらのモデルの重みはメモリ内で交差配置され、ARMおよびAVXマシンの性能を向上させるために一度により多くのデータをロードできるようになっていました。
しかし、現在では「オンライン再パッキング」と呼ばれる重み処理方法があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングから恩恵を受ける場合、自動的にリアルタイムで処理されます。
llama.cppのビルドバージョン b4282 以降では、Q4_0_X_Xファイルを実行することはできず、Q4_0を使用する必要があります。
また、少し良い品質を得たい場合は、IQ4_NLを使用することができます。このPR のおかげで、ARM用に重みが再パッキングされますが、現在は4_4のみです。ロード時間は長くなる可能性がありますが、全体的な速度が向上します。
(非推奨)Q4_0_X_X情報を表示するにはクリック
この部分を残しているのは、オンライン再パッキング機能を持つQ4_0を使用することで理論的に得られる性能向上を示すためです。
AVX2システム(EPYC7702)でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド数 | テストタイプ | トークン/秒 | Q4_0との比較 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8はプロンプト処理において大幅な向上が見られ、テキスト生成においても小幅な向上が見られます。
適切なファイルの選択方法
詳細を表示するにはクリック
Artefact2は、様々な性能を示すグラフ付きの素晴らしい記事を提供しています。ここ を参照してください。
まず、実行できるモデルのサイズを決定する必要があります。これには、自分が持っているメモリ(RAM)および/またはビデオメモリ(VRAM)の量を把握する必要があります。
モデルをできるだけ速く実行したい場合は、モデル全体をGPUのビデオメモリに格納する必要があります。GPUの総ビデオメモリよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
絶対的な最高品質を追求する場合は、システムメモリとGPUのビデオメモリを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
次に、「I量子化」または「K量子化」のどちらを使用するかを決定する必要があります。
あまり考えたくない場合は、K量子化モデルを選択してください。これらの形式は「QX_K_X」で、Q5_K_Mなどがあります。
詳細を知りたい場合は、非常に有用な機能グラフを参照してください。 llama.cpp機能マトリックス
基本的に、Q4より低い量子化レベルを目標とし、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I量子化モデルを検討する必要があります。これらの形式はIQX_Xで、IQ3_Mなどがあります。これらは比較的新しいモデルで、同じサイズでより良い性能を提供します。
これらのI量子化モデルはCPUでも使用できますが、対応するK量子化モデルよりも遅いため、速度と性能のトレードオフを考慮する必要があります。
📄 ライセンス
このプロジェクトはapache-2.0ライセンスの下で提供されています。
🙏 謝辞
kalomazeとDampfがimatrixキャリブレーションデータセットの作成に協力してくれたことに感謝します。 ZeroWwが埋め込み/出力実験にインスピレーションを与えてくれたことに感謝します。 LM Studioが私の仕事を支援してくれたことに感謝します。
私の仕事を支援したい場合は、私のko-fiページを訪問してください。https://ko-fi.com/bartowski



