Qwen3-30B-A6B-16-Extreme-GGUFオープンソースモデル - 多くのハードウェアに対応し、32kのコンテキスト長をサポート

ホーム

Qwen3 30B A6B 16 Extreme GGUF

Mungertによって開発

Qwen/Qwen3-30B-A3B-Baseに基づいて生成された超低ビット量子化モデルで、32kのコンテキスト長をサポートし、さまざまなハードウェア環境に適しています。

大規模言語モデル

Transformers

#超低ビット量子化 #マルチエキスパートシステム #メモリ効率的推論

ダウンロード数 1,321

リリース時間 : 5/23/2025

モデル概要

IQ-DynamicGate量子化技術を採用したマルチエキスパートモデルで、複数の量子化形式を提供し、メモリ効率と推論精度のバランスを取ります。

モデル特徴

超低ビット量子化

IQ-DynamicGate(1 - 2ビット)量子化方法を採用し、メモリ効率を維持しながら困惑度を大幅に低下させます。

マルチエキスパート設定

16個のエキスパートを使用してプロンプトを処理し、より複雑なタスクに対応できます（デフォルトは8個のエキスパート）。

多形式サポート

BF16/F16/複数の量子化形式(Q4_K/Q6_K/IQ3_XSなど)を提供し、さまざまなハードウェアのニーズに対応します。

長コンテキストサポート

32kトークンのコンテキスト長をサポートし、長いドキュメントや複雑な推論の処理に適しています。

モデル能力

テキスト生成

複雑な推論

セキュリティ監査

ネットワーク監視分析

量子暗号チェック

使用事例

ネットワークセキュリティ

SSL証明書チェック

ウェブサイトのSSL証明書の安全性を分析します。

量子セキュリティ暗号検証

サーバーが量子セキュリティ暗号通信を使用しているかどうかをチェックします。

システム管理

サーバーセキュリティ監査

包括的なサーバーセキュリティ評価を実行します。

環境科学

地球冷却策分析

夜間の放射冷却を利用して地球の温度を下げる方法を説明します。

🚀 Qwen3-30B-A6B-16-Extreme GGUFモデル

Qwen3-30B-A6B-16-Extreme GGUFモデルは、特定の技術に基づいて生成されたモデルです。超低ビット量子化などの分野で独自の優位性を持ち、さまざまなハードウェアとシーンに適用できます。また、ユーザーがニーズに応じて選択できるよう、複数のモデル形式を提供しています。

🚀 クイックスタート

このモデルはテキスト生成タスクに使用でき、32kのコンテキスト、推論、思考などの特性を備えています。Qwen/Qwen3 - 30B - A3B - Baseモデルに基づいて生成されています。

✨ 主な機能

超低ビット量子化：IQ - DynamicGate（1 - 2ビット）という最新の量子化方法を採用しています。Llama - 3 - 8Bでのベンチマークテストで改善が証明されており、特定の層戦略により、極端なメモリ効率を維持しながら精度を保っています。
複数のモデル形式：BF16、F16、量子化モデル（Q4_K、Q6_Kなど）、超低ビット量子化モデル（IQ3_XSなど）など、さまざまなモデル形式を提供し、異なるハードウェアとシーンのニーズを満たします。
マルチエキスパート設定：デフォルトで8個、最大16個のエキスパートを使用してプロンプトを処理します。より複雑なタスクに使用できますが、1秒あたりのトークン速度は低下します。

💻 使用例

基本的な使用法

モデルをテストする際には、異なるAIアシスタントタイプを選択して操作できます。以下はサンプルコマンドです。

1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!

📚 ドキュメント

モデル生成の詳細

このモデルは、llama.cppのコミットバージョン92ecdcc0で生成されました。

超低ビット量子化（IQ - DynamicGate、1 - 2ビット）

ベンチマークテスト環境

すべてのテストはLlama - 3 - 8B - Instructで行われ、標準の困惑度評価パイプライン、2048トークンのコンテキストウィンドウを使用し、すべての量子化で同じプロンプトセットを使用しています。

方法

動的精度割り当て：前後25%の層にIQ4_XS（選択された層）を、中央の50%にIQ2_XXS/IQ3_Sを使用して効率を向上させます。
重要コンポーネントの保護：埋め込み層/出力層にQ5_Kを使用することで、標準の1 - 2ビット量子化と比較して、誤差伝播を38%削減できます。

量子化性能比較（Llama - 3 - 8B）

量子化方式	標準困惑度（PPL）	DynamicGate困惑度（PPL）	PPL変化率	標準サイズ	DGサイズ	サイズ変化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

主要な改善点

IQ1_M：困惑度が大幅に43.9%（27.46から15.41）低下しました。
IQ2_S：困惑度が36.9%低下し、サイズはわずか0.2GB増加しました。
IQ1_S：1ビット量子化でありながら、39.7%の高い精度を維持しています。

トレードオフ

すべてのバリエーションでサイズが適度に増加（0.1 - 0.3GB）し、推論速度はほぼ同等（差<5%）です。

使用シーン

GPUメモリの適合
メモリ制限のあるデプロイ
1 - 2ビットの誤差を許容できるCPUとエッジデバイス
超低ビット量子化の研究

適切なモデル形式の選択

適切なモデル形式の選択は、ハードウェア能力とメモリ制限に依存します。具体的には以下の通りです。

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16をサポートするGPU/CPU	高速推論とメモリ使用量の削減
F16	高	高	FP16をサポートするデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低メモリデバイス	メモリ制限のある環境での最適な選択
Q6_K	中程度	適度	メモリが多いCPU	量子化モデルの中で、一定の精度を保ちながら良好な性能を発揮
Q8_0	高	適度	十分なメモリを持つCPUまたはGPU	量子化モデルの中で最も高い精度
IQ3_XS	極低	極低	超低メモリデバイス	極限のメモリ効率を追求するが、精度は低い
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppはARMデバイス向けに最適化されています

含まれるファイルと詳細

Qwen3-30B-A6B-16-Extreme-bf16.gguf：モデルの重みがBF16形式で保存されており、モデルを他の形式に再量子化するのに適しています。デバイスがBF16加速をサポートしている場合に最適です。
Qwen3-30B-A6B-16-Extreme-f16.gguf：モデルの重みがF16形式で保存されており、デバイスがFP16をサポートしている場合（特にBF16が利用できない場合）に使用します。
Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf：出力層と埋め込み層がBF16形式のままで、他の層はQ8_0に量子化されています。デバイスがBF16をサポートし、量子化バージョンが必要な場合に使用します。
Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf：出力層と埋め込み層がF16形式のままで、他の層はQ8_0に量子化されています。
Qwen3-30B-A6B-16-Extreme-q4_k.gguf：出力層と埋め込み層がQ8_0に量子化され、他の層はQ4_Kに量子化されており、メモリ制限のあるCPU推論に適しています。
Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf：最小のQ4_Kバリエーションで、精度を犠牲にしてメモリ使用量を削減しています。超低メモリ設定に適しています。
Qwen3-30B-A6B-16-Extreme-q6_k.gguf：出力層と埋め込み層がQ8_0に量子化され、他の層はQ6_Kに量子化されています。
Qwen3-30B-A6B-16-Extreme-q8_0.gguf：完全にQ8量子化されたモデルで、精度が高いですが、より多くのメモリが必要です。
Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf：IQ3_XS量子化されており、極限のメモリ効率を追求するために最適化されています。超低メモリデバイスに適しています。
Qwen3-30B-A6B-16-Extreme-iq3_m.gguf：IQ3_M量子化されており、中程度のブロックサイズで精度を向上させています。低メモリデバイスに適しています。
Qwen3-30B-A6B-16-Extreme-q4_0.gguf：純粋なQ4_0量子化で、ARMデバイス向けに最適化されています。ARMベースのデバイスまたは低メモリ環境に適しています。より高い精度を求める場合は、IQ4_NLを優先的に選択してください。

モデルテスト関連

テスト説明

これらのモデルが役立つと思ったら、いいねをしてください。同時に、AI駆動のネットワーク監視アシスタントのテストを支援し、量子対応のセキュリティチェックを行うことができます。テストリンクはQuantum Network Monitorです。

テスト方法

AIアシスタントのタイプを選択します。

TurboLLM（GPT - 4o - mini）
HugLLM（Hugginfaceオープンソース）
TestLLM（CPUのみをサポートする実験的モデル）

テスト内容

小型のオープンソースモデルのAIネットワーク監視における限界を追求します。具体的には以下の通りです。

リアルタイムネットワークサービスに対する関数呼び出し
自動化されたNmapスキャン、量子対応チェック、ネットワーク監視タスクを処理する際のモデルの最小規模の探索

異なるアシスタントの特徴

TestLLM：現在の実験的モデル（llama.cppを2つのCPUスレッドで実行）で、ゼロコンフィギュレーション設定で、ロード時間は約30秒（推論は遅いがAPIコストがかからない）です。エッジデバイスAI関連の協力を求めています。
TurboLLM：gpt - 4o - miniを使用して、量子ネットワーク監視エージェント上で.netコードを実行するカスタムコマンドプロセッサの作成、リアルタイムネットワーク診断と監視、セキュリティ監査、浸透テスト（Nmap/Metasploit）などのタスクを実行します。
HugLLM：最新のオープンソースモデルに基づいて、Hugging Face推論API上で実行されます。

サンプル生成

サンプルパラメータ

Temp 1.2、rep pen 1.06、rep pen range 64、topk 100、topp .95、minp .05

テスト環境

Q4KS [非Imatrix]、CPUのみ（Windows 11）、LMSTUDIO、速度は11 T/S（GPUオフロードなし）。これは中程度の量子化であり、Imatrix Q4KS、より高い量子化または全精度モデルではより高い性能が期待されます。

プロンプトサンプル

Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.

重要な注意事項

このモデルの独特な特性（MOE、サイズ、アクティブなエキスパート、エキスパートサイズ）により、GGUF量子化はCPU、GPUで実行でき、またはGPUの一部を「オフロード」して全精度で実行することもできます。
このモデルはImatrix操作が難しく、より大きなImatrixファイル/多言語/多コンテンツが必要です。
GPUの速度はCPUのみの速度よりも4 - 8倍以上速く、他の「30B」モデルと比較して、このモデルの1秒あたりのトークン速度は、「6B」の通常モデルとほぼ同等です。

システムロールの設定

必要に応じてシステムロールを設定することができます。以下はサンプルです。

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

具体的な設定方法は、ドキュメントhttps://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parametersを参照してください。

モデル性能の最適化

モデルの種類に関係なく、このドキュメントhttps://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parametersでは、モデル操作を強化する方法が詳細に説明されています。Class 3/4モデルの場合は、正しいデフォルトパラメータ、サンプラー、高度なサンプラーを設定して、正しく使用する必要があります。