🚀 Qwen3-30B-A6B-16-Extreme GGUFモデル
Qwen3-30B-A6B-16-Extreme GGUFモデルは、特定の技術に基づいて生成されたモデルです。超低ビット量子化などの分野で独自の優位性を持ち、さまざまなハードウェアとシーンに適用できます。また、ユーザーがニーズに応じて選択できるよう、複数のモデル形式を提供しています。
🚀 クイックスタート
このモデルはテキスト生成タスクに使用でき、32kのコンテキスト、推論、思考などの特性を備えています。Qwen/Qwen3 - 30B - A3B - Baseモデルに基づいて生成されています。
✨ 主な機能
- 超低ビット量子化:IQ - DynamicGate(1 - 2ビット)という最新の量子化方法を採用しています。Llama - 3 - 8Bでのベンチマークテストで改善が証明されており、特定の層戦略により、極端なメモリ効率を維持しながら精度を保っています。
- 複数のモデル形式:BF16、F16、量子化モデル(Q4_K、Q6_Kなど)、超低ビット量子化モデル(IQ3_XSなど)など、さまざまなモデル形式を提供し、異なるハードウェアとシーンのニーズを満たします。
- マルチエキスパート設定:デフォルトで8個、最大16個のエキスパートを使用してプロンプトを処理します。より複雑なタスクに使用できますが、1秒あたりのトークン速度は低下します。
💻 使用例
基本的な使用法
モデルをテストする際には、異なるAIアシスタントタイプを選択して操作できます。以下はサンプルコマンドです。
1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!
📚 ドキュメント
モデル生成の詳細
このモデルは、llama.cppのコミットバージョン92ecdcc0
で生成されました。
超低ビット量子化(IQ - DynamicGate、1 - 2ビット)
ベンチマークテスト環境
すべてのテストはLlama - 3 - 8B - Instructで行われ、標準の困惑度評価パイプライン、2048トークンのコンテキストウィンドウを使用し、すべての量子化で同じプロンプトセットを使用しています。
方法
- 動的精度割り当て:前後25%の層にIQ4_XS(選択された層)を、中央の50%にIQ2_XXS/IQ3_Sを使用して効率を向上させます。
- 重要コンポーネントの保護:埋め込み層/出力層にQ5_Kを使用することで、標準の1 - 2ビット量子化と比較して、誤差伝播を38%削減できます。
量子化性能比較(Llama - 3 - 8B)
量子化方式 |
標準困惑度(PPL) |
DynamicGate困惑度(PPL) |
PPL変化率 |
標準サイズ |
DGサイズ |
サイズ変化 |
標準速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
主要な改善点
- IQ1_M:困惑度が大幅に43.9%(27.46から15.41)低下しました。
- IQ2_S:困惑度が36.9%低下し、サイズはわずか0.2GB増加しました。
- IQ1_S:1ビット量子化でありながら、39.7%の高い精度を維持しています。
トレードオフ
すべてのバリエーションでサイズが適度に増加(0.1 - 0.3GB)し、推論速度はほぼ同等(差<5%)です。
使用シーン
- GPUメモリの適合
- メモリ制限のあるデプロイ
- 1 - 2ビットの誤差を許容できるCPUとエッジデバイス
- 超低ビット量子化の研究
適切なモデル形式の選択
適切なモデル形式の選択は、ハードウェア能力とメモリ制限に依存します。具体的には以下の通りです。
モデル形式 |
精度 |
メモリ使用量 |
デバイス要件 |
最適な使用例 |
BF16 |
最高 |
高 |
BF16をサポートするGPU/CPU |
高速推論とメモリ使用量の削減 |
F16 |
高 |
高 |
FP16をサポートするデバイス |
BF16が利用できない場合のGPU推論 |
Q4_K |
中低 |
低 |
CPUまたは低メモリデバイス |
メモリ制限のある環境での最適な選択 |
Q6_K |
中程度 |
適度 |
メモリが多いCPU |
量子化モデルの中で、一定の精度を保ちながら良好な性能を発揮 |
Q8_0 |
高 |
適度 |
十分なメモリを持つCPUまたはGPU |
量子化モデルの中で最も高い精度 |
IQ3_XS |
極低 |
極低 |
超低メモリデバイス |
極限のメモリ効率を追求するが、精度は低い |
Q4_0 |
低 |
低 |
ARMまたは低メモリデバイス |
llama.cppはARMデバイス向けに最適化されています |
含まれるファイルと詳細
Qwen3-30B-A6B-16-Extreme-bf16.gguf
:モデルの重みがBF16形式で保存されており、モデルを他の形式に再量子化するのに適しています。デバイスがBF16加速をサポートしている場合に最適です。
Qwen3-30B-A6B-16-Extreme-f16.gguf
:モデルの重みがF16形式で保存されており、デバイスがFP16をサポートしている場合(特にBF16が利用できない場合)に使用します。
Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf
:出力層と埋め込み層がBF16形式のままで、他の層はQ8_0に量子化されています。デバイスがBF16をサポートし、量子化バージョンが必要な場合に使用します。
Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf
:出力層と埋め込み層がF16形式のままで、他の層はQ8_0に量子化されています。
Qwen3-30B-A6B-16-Extreme-q4_k.gguf
:出力層と埋め込み層がQ8_0に量子化され、他の層はQ4_Kに量子化されており、メモリ制限のあるCPU推論に適しています。
Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf
:最小のQ4_Kバリエーションで、精度を犠牲にしてメモリ使用量を削減しています。超低メモリ設定に適しています。
Qwen3-30B-A6B-16-Extreme-q6_k.gguf
:出力層と埋め込み層がQ8_0に量子化され、他の層はQ6_Kに量子化されています。
Qwen3-30B-A6B-16-Extreme-q8_0.gguf
:完全にQ8量子化されたモデルで、精度が高いですが、より多くのメモリが必要です。
Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf
:IQ3_XS量子化されており、極限のメモリ効率を追求するために最適化されています。超低メモリデバイスに適しています。
Qwen3-30B-A6B-16-Extreme-iq3_m.gguf
:IQ3_M量子化されており、中程度のブロックサイズで精度を向上させています。低メモリデバイスに適しています。
Qwen3-30B-A6B-16-Extreme-q4_0.gguf
:純粋なQ4_0量子化で、ARMデバイス向けに最適化されています。ARMベースのデバイスまたは低メモリ環境に適しています。より高い精度を求める場合は、IQ4_NLを優先的に選択してください。
モデルテスト関連
テスト説明
これらのモデルが役立つと思ったら、いいねをしてください。同時に、AI駆動のネットワーク監視アシスタントのテストを支援し、量子対応のセキュリティチェックを行うことができます。テストリンクはQuantum Network Monitorです。
テスト方法
AIアシスタントのタイプを選択します。
TurboLLM
(GPT - 4o - mini)
HugLLM
(Hugginfaceオープンソース)
TestLLM
(CPUのみをサポートする実験的モデル)
テスト内容
小型のオープンソースモデルのAIネットワーク監視における限界を追求します。具体的には以下の通りです。
- リアルタイムネットワークサービスに対する関数呼び出し
- 自動化されたNmapスキャン、量子対応チェック、ネットワーク監視タスクを処理する際のモデルの最小規模の探索
異なるアシスタントの特徴
- TestLLM:現在の実験的モデル(llama.cppを2つのCPUスレッドで実行)で、ゼロコンフィギュレーション設定で、ロード時間は約30秒(推論は遅いがAPIコストがかからない)です。エッジデバイスAI関連の協力を求めています。
- TurboLLM:gpt - 4o - miniを使用して、量子ネットワーク監視エージェント上で.netコードを実行するカスタムコマンドプロセッサの作成、リアルタイムネットワーク診断と監視、セキュリティ監査、浸透テスト(Nmap/Metasploit)などのタスクを実行します。
- HugLLM:最新のオープンソースモデルに基づいて、Hugging Face推論API上で実行されます。
サンプル生成
サンプルパラメータ
Temp 1.2、rep pen 1.06、rep pen range 64、topk 100、topp .95、minp .05
テスト環境
Q4KS [非Imatrix]、CPUのみ(Windows 11)、LMSTUDIO、速度は11 T/S(GPUオフロードなし)。これは中程度の量子化であり、Imatrix Q4KS、より高い量子化または全精度モデルではより高い性能が期待されます。
プロンプトサンプル
Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.
重要な注意事項
- このモデルの独特な特性(MOE、サイズ、アクティブなエキスパート、エキスパートサイズ)により、GGUF量子化はCPU、GPUで実行でき、またはGPUの一部を「オフロード」して全精度で実行することもできます。
- このモデルはImatrix操作が難しく、より大きなImatrixファイル/多言語/多コンテンツが必要です。
- GPUの速度はCPUのみの速度よりも4 - 8倍以上速く、他の「30B」モデルと比較して、このモデルの1秒あたりのトークン速度は、「6B」の通常モデルとほぼ同等です。
システムロールの設定
必要に応じてシステムロールを設定することができます。以下はサンプルです。
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
具体的な設定方法は、ドキュメントhttps://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parametersを参照してください。
モデル性能の最適化
モデルの種類に関係なく、このドキュメントhttps://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parametersでは、モデル操作を強化する方法が詳細に説明されています。Class 3/4モデルの場合は、正しいデフォルトパラメータ、サンプラー、高度なサンプラーを設定して、正しく使用する必要があります。
他のバージョン
最後の説明
モデルの作成と量子ネットワーク監視プロジェクトのコードはすべてオープンソースであり、https://github.com/Mungert69で確認できます。この作業を認めていただける場合は、コーヒーを購入してサポートしていただけると幸いです。同時に、仕事の機会やスポンサーも求めています。