Qwen3-30B-A1.5B-High-Speed-GGUFオープンソース推論モデル - 効率的な推論、多量子化と長文脈をサポート

ホーム

Qwen3 30B A1.5B High Speed GGUF

Mungertによって開発

Qwen 30B - A3B(MOE)をベースに微調整された高効率推論モデルで、専家の数を減らすことでほぼ2倍の速度向上を実現し、複数の量子化形式と40Kのコンテキスト長をサポートします。

大規模言語モデル

Transformers

#専家混合加速 #40K長コンテキスト #ネットワーク監視最適化

ダウンロード数 732

リリース時間 : 6/5/2025

モデル概要

高効率推論に最適化された混合専家モデルで、CPU/GPUデプロイをサポートし、テキスト生成、深度思考などのタスクに適しており、特にリソースが制限された環境に適しています。

モデル特徴

高速推論

アクティブな専家の数を4つに減らすことで、ほぼ2倍の推論速度を実現します。

多形式サポート

GGUF、GPTQ、EXL2などの複数の量子化形式をサポートし、異なるハードウェアに適合します。

大規模コンテキストウィンドウ

40Kトークンのコンテキスト長をサポートします（入力32K + 出力8K）。

深度思考モード

システムロールの設定により、チェーン式の深度推論を実現し、<think>タグ付きの思考過程を出力します。

低リソースデプロイ

量子化バージョンはCPUまたは低VRAMのGPUで実行でき、メモリ使用量を最小限に抑えます。

モデル能力

長文テキスト生成

体系的推論

ネットワーク監視分析

セキュリティ監査支援

多輪対話

技術文書処理

使用事例

ネットワーク監視とセキュリティ

SSL証明書チェック

ウェブサイトのSSL証明書の安全性を分析します。

証明書の有効性レポートを自動生成します。

量子セキュリティ暗号化検出

サーバーが量子セキュリティ暗号化通信を使用しているかどうかをチェックします。

暗号化プロトコルの種類を識別し、改善提案を行います。

自動化セキュリティ監査

包括的なサーバーセキュリティ監査を実行します。

脆弱性分析を含むセキュリティレポートを生成します。

創造的コンテンツ生成

SFストーリー作成

指定されたテーマに基づいて800 - 1000字のSF小説を生成します。

完全な情節と感情的な深みを含むストーリーを出力します。

## 🚀 Qwen3-30B-A1.5B-High-Speed GGUFモデル

このモデルは、量子対応のセキュリティチェックを備えた高速なテキスト生成モデルです。様々なハードウェア環境に対応したモデル形式を提供し、AIネットワーク監視などのタスクにも利用できます。

## 🚀 クイックスタート
このモデルを使用するには、まず適切なモデル形式を選択する必要があります。選択には、ハードウェアの能力とメモリ制約を考慮する必要があります。以下に、各モデル形式の概要を示します。

## ✨ 主な機能
- **高速なテキスト生成**: モデルの速度をほぼ2倍に向上させる方法を採用しています。
- **多様なモデル形式**: BF16、F16、量子化モデルなど、様々なモデル形式をサポートしています。
- **AIネットワーク監視**: 小規模なオープンソースモデルを用いたAIネットワーク監視の限界を追求しています。

## 📦 インストール
このREADMEでは具体的なインストール手順は提供されていません。

## 💻 使用例

### 基本的な使用法
このモデルを使用してテキスト生成を行うには、以下のようなコマンドを使用できます。ただし、具体的なコード例はREADMEに記載されていません。

### 高度な使用法
高度な使用法についても、具体的なコード例はREADMEに記載されていません。

## 📚 ドキュメント

### モデル生成の詳細
このモデルは、[llama.cpp](https://github.com/ggerganov/llama.cpp) のコミット [`0d398442`](https://github.com/ggerganov/llama.cpp/commit/0d3984424f2973c49c4bcabe4cc0153b4f90c601) を使用して生成されました。

### 適切なモデル形式の選択
選択するモデル形式は、**ハードウェア能力**と**メモリ制約**に依存します。以下に、各モデル形式の詳細を示します。

#### BF16 (Brain Float 16) - BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を可能にする16ビット浮動小数点数形式で、精度も良好です。
- FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減します。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨されます（デバイスの仕様を確認してください）。
- FP32と比較して、メモリ使用量を削減しながら高性能な推論を行うのに適しています。

**BF16を使用する場合**:
- ハードウェアがネイティブのBF16サポートを持っている場合（例: 新しいGPU、TPU）。
- メモリを節約しながら、より高い精度が必要な場合。
- モデルを別の形式に再量子化する予定がある場合。

**BF16を避ける場合**:
- ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。
- BF16最適化を持たない古いデバイスとの互換性が必要な場合。

#### F16 (Float 16) - BF16よりも広くサポートされています
- 16ビット浮動小数点数形式で、高精度ですが、BF16よりも値の範囲が狭いです。
- FP16アクセラレーションをサポートするほとんどのデバイスで動作します（多くのGPUや一部のCPUを含む）。
- BF16よりも若干数値精度が低いですが、推論には一般的に十分です。

**F16を使用する場合**:
- ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。
- 速度、メモリ使用量、精度のバランスが必要な場合。
- FP16計算に最適化されたGPUまたは他のデバイスで実行している場合。

**F16を避ける場合**:
- デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性があります）。
- メモリ制限がある場合。

#### 量子化モデル (Q4_K、Q6_K、Q8など) - CPUと低VRAM推論用
量子化は、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持します。
- **低ビットモデル (Q4_K)** - 最小限のメモリ使用量に最適ですが、精度が低い場合があります。
- **高ビットモデル (Q6_K、Q8_0)** - より高い精度を提供しますが、より多くのメモリを必要とします。

**量子化モデルを使用する場合**:
- CPUで推論を実行し、最適化されたモデルが必要な場合。
- デバイスのVRAMが少なく、フル精度モデルをロードできない場合。
- 適度な精度を維持しながら、メモリ使用量を削減したい場合。

**量子化モデルを避ける場合**:
- 最大の精度が必要な場合（フル精度モデルの方が適しています）。
- ハードウェアに十分なVRAMがあり、より高精度の形式（BF16/F16）を使用できる場合。

#### 超低ビット量子化 (IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
これらのモデルは、極端なメモリ効率のために最適化されており、低電力デバイスまたはメモリが重要な制約となる大規模な展開に最適です。

- **IQ3_XS**: 超低ビット量子化（3ビット）で、極端なメモリ効率を実現します。
  - **使用ケース**: Q4_Kでさえ大きすぎる超低メモリデバイスに最適です。
  - **トレードオフ**: 高ビット量子化と比較して、精度が低くなります。

- **IQ3_S**: 最大のメモリ効率のための小さなブロックサイズです。
  - **使用ケース**: IQ3_XSが過度に制限的である低メモリデバイスに最適です。

- **IQ3_M**: IQ3_Sよりも高い精度のための中サイズのブロックサイズです。
  - **使用ケース**: IQ3_Sが制限的すぎる低メモリデバイスに適しています。

- **Q4_K**: ブロック単位の最適化により、より高い精度を提供する4ビット量子化です。
  - **使用ケース**: Q6_Kが大きすぎる低メモリデバイスに最適です。

- **Q4_0**: ARMデバイス用に最適化された純粋な4ビット量子化です。
  - **使用ケース**: ARMベースのデバイスまたは低メモリ環境に最適です。

#### モデル形式選択の概要表
| モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用ケース |
|------|------|------|------|------|
| **BF16** | 最高 | 高 | BF16対応のGPU/CPU | メモリを削減した高速推論 |
| **F16** | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
| **Q4_K** | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
| **Q6_K** | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままでもより高い精度 |
| **Q8_0** | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最高の精度 |
| **IQ3_XS** | 非常に低 | 非常に低 | 超低メモリデバイス | 極端なメモリ効率と低精度 |
| **Q4_0** | 低 | 低 | ARMまたは低メモリデバイス | llama.cppはARMデバイス用に最適化できます |

### モデルのテストに関する情報
このモデルが役に立つと思われる場合は、「いいね」をクリックしていただけると助かります。また、量子対応のセキュリティチェックを備えた **AI-Powered Network Monitor Assistant** のテストにご協力いただけると幸いです。

[無料ネットワークモニター](https://readyforquantum.com/dashboard/?assistant=open&utm_source=huggingface&utm_medium=referral&utm_campaign=huggingface_repo_readme)

**テスト方法**:
AIアシスタントのタイプを選択します。
- `TurboLLM` (GPT-4o-mini)
- `HugLLM` (Hugginfaceオープンソース)
- `TestLLM` (実験的なCPUのみ)

**テスト内容**:
小規模なオープンソースモデルを用いたAIネットワーク監視の限界を追求しています。具体的には、以下のことをテストしています。
- ライブネットワークサービスに対する関数呼び出し
- 以下のタスクを処理しながら、モデルをどれだけ小さくできるか:
  - 自動化された **Nmapスキャン**
  - **量子対応チェック**
  - **ネットワーク監視タスク**

**TestLLM** - 現在の実験的モデル (2つのCPUスレッドでのllama.cpp):
- **ゼロコンフィギュレーションセットアップ**
- 30秒のロード時間（低速な推論ですが、APIコストはかかりません）
- **協力者を募集しています！** エッジデバイスAIに興味がある方は、一緒に協力しましょう！

**その他のアシスタント**
- **TurboLLM** - **gpt-4o-mini** を使用して、以下のことを行います。
  - 無料ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成する
  - リアルタイムのネットワーク診断と監視
  - セキュリティ監査
  - ペネトレーションテスト (Nmap/Metasploit)

- **HugLLM** - 最新のオープンソースモデル:
  - Hugging Face Inference APIで実行されます。

**テストできるコマンドの例**:
1. `"Give me info on my websites SSL certificate"`
2. `"Check if my server is using quantum safe encyption for communication"`
3. `"Run a comprehensive security audit on my server"`
4. '"Create a cmd processor to .. (what ever you want)" 注: .NETコードを実行するには、無料ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

### モデルに関するその他の情報
このリポジトリには、GGUF、GPTQ、EXL2、AWQ、HQQなどの形式を生成するためのフル精度のソースコードが含まれています。ソースコードは直接使用することもできます。

これは、Qwenの "Qwen 30B-A3B" (MOE) モデルの単純な「ファインチューニング」であり、使用するエキスパートを128個のエキスパートの中から8個から4個に設定しています。

この方法により、モデルの速度がほぼ2倍になり、30Bのパラメータのうち1.5Bを使用する代わりに、3Bを使用します。アプリケーションに応じて、通常のモデル ("30B-A3B") を使用することもできますが、より単純な使用ケースにはこのモデルを使用することができます。ただし、日常的な（ただし広範ではない）テスト中に機能の損失は認められませんでした。

このページの下部に、4つのエキスパート/このモデルを使用した生成例 (Q4KS、CPU) があります。

64KコンテキストのNEO Imatrix Quants / Imatrix Max Quantsはこちらにあります。

[ https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf ]

より複雑な使用ケースでは、通常のバージョンおよび/または12、16、または24個のエキスパートバージョンを使用すると恩恵を受ける可能性があります - 以下のリンクを参照してください。

参考までに:
- CPUのみの操作 (Q4KS、Windows 11) では、12 t/sから23 t/sにジャンプします。
- GPUパフォーマンス (IQ3S) では、75 t/sから125 t/s以上にジャンプします。（低〜中レベルのカード）

コンテキストサイズ: 32K + 8Kの出力 (合計40k)

JinjaテンプレートまたはCHATMLテンプレートを使用します。

### 重要な注意事項
- このモデルの独特な性質（MOE、サイズ、アクティブなエキスパート、エキスパートのサイズ）により、GGUF量子化モデルはCPU、GPU、またはGPUパートの「オフロード」で実行でき、フル精度まで対応しています。
- このモデルはImatrix化が難しいです。Imatrix化するには、はるかに大きなimatrixファイル/多言語/多コンテンツ（コード/テキストなど）が必要です。
- GPUの速度は、CPUのみの速度の4倍〜8倍以上になり、このモデルも他の "30B" モデルと比較して非常に高速です（1秒あたりのトークン速度は、おおよそ1.5Bの「通常」モデルの速度と同等です）。

詳細、ベンチマーク、使用方法、設定、システムロールなどについては、元のモデルカードを参照してください。

[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]

### エキスパート数の異なるバージョン
- 12個のエキスパート: [ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]
- 16個のエキスパート: [ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]
- 16個のエキスパート、128kコンテキスト: [ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]
- 24個のエキスパート: [ https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm ]

### オプションのシステムロール
これは必要ない場合もありますが、ほとんどの場合、Qwen3は独自の推論/思考ブロックを生成します。

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside tags, and then provide your solution or response to the problem.


以下の様々なLLM/AIアプリでシステムロールを「設定」する方法については、「Maximizing-Model-Performance-All...」というドキュメントを参照してください。

### 最高品質の設定/最適な動作ガイド/パラメータとサンプラー
このモデル（ソース、GGUF、または別の量子化モデル）を使用する場合は、重要なパラメータ、サンプラー、および高度なサンプラー設定（複数のAI/LLMアプリ用）について、このドキュメントを確認してください。

これは「クラス1」（設定により動作が向上する）モデルです。

このモデルに使用されるすべての設定（その「クラス」に固有の設定を含む）、生成例、および高度な設定ガイド（多くの場合、モデルの問題を解決します）、すべての使用ケース（チャット、ロールプレイ、およびその他の使用ケースを含む）のモデルパフォーマンスを向上させる方法（特にモデルの設計を超えた使用ケース）については、以下を参照してください。

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

理由:
「モデルクラス」に関係なく、このドキュメントでは動作を向上させる方法が詳細に説明されています。

モデルがクラス3/4の場合、デフォルト設定（パラメータ、サンプラー、高度なサンプラー）は、「使用ケース」の使用に正しく設定する必要があります。一部のAI/LLMアプリは一貫したデフォルト設定を持っていないため、モデルの動作が不十分になる場合があります。同様に、クラス3/4のモデル（標準モデルと多少または非常に異なる動作をする）には、動作を「スムーズにする」ために追加のサンプラーと高度なサンプラー設定が必要であり、および/またはモデルが設計されていない使用ケースでも完全な動作を可能にするためにも必要です。

### ボーナス - 任意のモデル、任意のリポジトリ、任意の量子化（ソース/フル精度を含む）にこれらの設定を使用する
このドキュメントでは、任意のモデル、任意のリポジトリのパラメータ、サンプラー、および高度なサンプラーを使用する方法も詳細に説明されています。

これらの設定は、任意のモデルの動作を向上させるために使用できます。

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

### 注意事項
このモデルを使用する際には、特に「クラス3」または「クラス4」の場合、最大限のパフォーマンスを得るために、DavidAU GGUFリポジトリを参照することを強くお勧めします。

このモデルに関するすべての情報（このモデルとその使用ケースに関する詳細、コンテキスト制限、特別な使用上の注意/設定、このモデルを作成するために使用されたモデル、このモデルにアクセス/使用するために使用されるテンプレート、生成例、このモデルのGGUF量子化モデル）については、以下を参照してください。

https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf

### 生成例
Temp 1.2, rep pen 1.06, rep pen range 64, topk 100, topp .95, minp .05

Q4KS [non-imatrix], CPU only (windows 11), LMSTUDIO.

これは中レベルの量子化です。Imatrix Q4KS/より高い量子化/フル精度では、より強力なパフォーマンスが期待できます。

注: コピー&ペースト時に一部のフォーマットが失われる場合があります。

**プロンプト**:
Science Fiction: The Last Transmission - Write a story that takes place entirely within a spaceship's cockpit as the sole surviving crew member attempts to send a final message back to Earth before the ship's power runs out. The story should explore themes of isolation, sacrifice, and the importance of human connection in the face of adversity. If the situation calls for it, have the character(s) curse and swear to further the reader's emotional connection to them. 800-1000 words.

**生成結果**:

The cockpit reeked of burnt circuitry and sweat, a stench that clung to my skin like a second, cursed flesh. My fingers danced over the controls, but the readouts spat