Qwen3-30B - A7.5B - 24 - Grand - Brainstormオープンソースモデル - 無料デプロイで複雑なタスクの深度推論をサポート

ホーム

Qwen3 30B A7.5B 24 Grand Brainstorm

DavidAUによって開発

Qwen3-30B-A3B混合専門家モデルをベースにした微調整バージョンで、アクティブな専門家の数を8個から24個に増やし、深度推論が必要な複雑なタスクに適しています。

大規模言語モデル

Transformers

#24人の専門家による深度推論 #32kの長文脈 #混合専門家アーキテクチャ

ダウンロード数 55

リリース時間 : 5/4/2025

モデル概要

これは強化版の混合専門家モデルで、アクティブな専門家の数を増やすことで（24個）、複雑な推論能力を向上させ、深い思考と分析が必要なシーンに適しています。

モデル特徴

強化された専門家システム

24人の専門家を使用（オリジナルは8人）、300億パラメータのうち75億パラメータをアクティブにし、複雑なタスクの処理能力を大幅に向上させます。

長文脈サポート

32kの文脈 + 8kの出力をサポートし、合計40kトークンの長文テキスト処理が可能です。

柔軟な量子化サポート

GGUF、GPTQ、EXL2、AWQ、HQQなどの複数の量子化形式をサポートし、CPU/GPUで実行可能です。

深度推論能力

長い思考連鎖と体系的な推論が必要な複雑なタスクに特に適しています。

モデル能力

複雑なテキスト生成

深度推論

長文テキスト処理

多輪対話

使用事例

科学研究

気候解決策分析

宇宙放射冷却効果を利用して地球の温度を下げる方法を分析します。

20種類以上の革新的な解決策を生成できます。

創作執筆

SF物語創作

人間の感情と生存をテーマにしたSF短編を生成します。

深い感情描写を持つ完全な物語を創作できます。

問題解決

革新的な思考の刺激

特定の問題に対して「既存の枠組みを超えた」解決策を提案します。

体系的に複数の革新的なアイデアを生成できます。

🚀 Qwen3-30B-A7.5B-24-Grand-Brainstorm

このリポジトリは、Qwenの「Qwen 30B - A3B」(MOE)モデルを調整したもので、使用するエキスパートを8から24に増やし、より複雑なタスクに対応できるようにしています。

🚀 クイックスタート

このリポジトリには、GGUFs、GPTQ、EXL2、AWQ、HQQなどの形式を生成するための完全精度のソースコードが「safe tensors」形式で含まれています。ソースコードは直接使用することもできます。

✨ 主な機能

このモデルは、Qwenの「Qwen 30B - A3B」(MOE)モデルをシンプルに「微調整」したもので、使用するエキスパートを128個の中から8個から24個に設定しています。
モデルの速度は低下しますが、より多くの「エキスパート」を使用してプロンプトを処理し、30Bのパラメータのうち7.5Bを使用するため、非常に複雑なタスクに適しています。
コンテキストサイズは32K + 8Kの出力用（合計40k）です。
Jinja TemplateまたはCHATML templateを使用できます。

📚 ドキュメント

モデルの詳細

このモデルは、Qwenの「Qwen 30B - A3B」(MOE)モデルをベースにしており、使用するエキスパートを8個から24個に増やしています。これにより、モデルの速度は低下しますが、より多くのパラメータを使用してプロンプトを処理するため、非常に複雑なタスクに適しています。

エキスパートの数とパフォーマンス

通常の使用例やシンプルなタスクでは、通常のモデル（8エキスパート）、「12コック」（12エキスパート）、16 Extreme（32kまたは128kコンテキスト）、または「高速」（4エキスパート）バージョンを使用することをお勧めします。
デフォルトの8エキスパートの代わりに24エキスパートを使用すると、トークン/秒の速度が約2/3に低下します。
この24エキスパートのバージョンは、一部の使用例には過剰な場合があります。

重要な設定とガイド

このモデルを使用する場合は、このドキュメントを参照して、重要なパラメータ、サンプラー、および高度なサンプラーの設定を確認してください。
このモデルは「Class 1」（設定により動作が向上する）モデルです。このモデルに使用されるすべての設定（クラス固有の設定を含む）、例生成、および高度な設定ガイドについては、上記のドキュメントを参照してください。

その他のバージョン

4エキスパート: https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed
12エキスパート: https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks
16エキスパート（32kコンテキスト）: https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme
16エキスパート（128kコンテキスト）: https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context

システムロールの設定

多くの場合、Qwen3は独自の推論/思考ブロックを生成するため、システムロールは必要ない場合があります。ただし、必要に応じて以下のシステムロールを使用できます。

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

さまざまなLLM/AIアプリでシステムロールを設定する方法については、「Maximizing - Model - Performance - All...」ドキュメントを参照してください。

出力例

以下は、24エキスパートを使用したモデルの出力例です（Q4KS、CPU）。

例1

温度: 1.2
繰り返しペナルティ: 1.06
繰り返しペナルティ範囲: 64
topk: 100
topp: .95
minp: .05
速度: 8 T/S（GPUオフロードなし）

これは中レベルの量子化であり、Imatrix Q4KS / より高い量子化 / 完全精度ではより強力なパフォーマンスが期待できます。

プロンプト:

Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.

思考プロセス: Thought for 6 minutes 18 seconds

Okay, let's try to figure out how to use nighttime cooling of radiant energy into space to reduce global temperatures. Hmm, first I need to understand what this concept means. Radiant energy into space during night time... maybe it's about the Earth emitting heat radiation at night, which then goes into space? So, if we can enhance that process, maybe we can cool the planet more effectively?

...（省略）

可能な方法:

地球の表面の放射率を高める。例えば、高い放射率を持つ材料（黒体など）を使用することで、夜間により多くの熱を放射し、局所的な温度を下げ、場合によっては地球全体の冷却に寄与することができます。
大気中の温室効果ガスを削減する。これは夜間に限定されるものではなく、全体的な削減ですが、夜間に太陽光がないときには、温室効果ガスの影響が異なるかもしれません。
夜間に大気の条件を変更して、より多くの放射を逃がす。例えば、雲の操作やエアロゾルの調整によって、大気の不透明度を下げることができます。
夜間に熱を放射して能動的に冷却するシステムを使用する。例えば、放射率の高い表面を持つ人工構造物を作成し、大規模に設置することができます。

🔧 技術詳細

このモデルの独特な性質（MOE、サイズ、活性化されたエキスパート、エキスパートのサイズ）により、GGUF量子化はCPU、GPU、またはGPUパートの「オフロード」で、完全精度まで実行できます。
このモデルはImatrixが難しいです。より大きなimatrixファイル/多言語/多コンテンツ（コード/テキストなど）が必要です。
GPUの速度は、CPUのみの速度の4 - 8倍以上になり、他の「30B」モデルと比較しても非常に高速です（トークン/秒の速度は、おおよそ7.5Bの「通常」モデルと同等）。