🚀 Qwen3-30B-A7.5B-24-Grand-Brainstorm
このリポジトリは、Qwenの「Qwen 30B - A3B」(MOE)モデルを調整したもので、使用するエキスパートを8から24に増やし、より複雑なタスクに対応できるようにしています。
🚀 クイックスタート
このリポジトリには、GGUFs、GPTQ、EXL2、AWQ、HQQなどの形式を生成するための完全精度のソースコードが「safe tensors」形式で含まれています。ソースコードは直接使用することもできます。
✨ 主な機能
- このモデルは、Qwenの「Qwen 30B - A3B」(MOE)モデルをシンプルに「微調整」したもので、使用するエキスパートを128個の中から8個から24個に設定しています。
- モデルの速度は低下しますが、より多くの「エキスパート」を使用してプロンプトを処理し、30Bのパラメータのうち7.5Bを使用するため、非常に複雑なタスクに適しています。
- コンテキストサイズは32K + 8Kの出力用(合計40k)です。
- Jinja TemplateまたはCHATML templateを使用できます。
📚 ドキュメント
モデルの詳細
このモデルは、Qwenの「Qwen 30B - A3B」(MOE)モデルをベースにしており、使用するエキスパートを8個から24個に増やしています。これにより、モデルの速度は低下しますが、より多くのパラメータを使用してプロンプトを処理するため、非常に複雑なタスクに適しています。
エキスパートの数とパフォーマンス
- 通常の使用例やシンプルなタスクでは、通常のモデル(8エキスパート)、「12コック」(12エキスパート)、16 Extreme(32kまたは128kコンテキスト)、または「高速」(4エキスパート)バージョンを使用することをお勧めします。
- デフォルトの8エキスパートの代わりに24エキスパートを使用すると、トークン/秒の速度が約2/3に低下します。
- この24エキスパートのバージョンは、一部の使用例には過剰な場合があります。
重要な設定とガイド
- このモデルを使用する場合は、このドキュメントを参照して、重要なパラメータ、サンプラー、および高度なサンプラーの設定を確認してください。
- このモデルは「Class 1」(設定により動作が向上する)モデルです。このモデルに使用されるすべての設定(クラス固有の設定を含む)、例生成、および高度な設定ガイドについては、上記のドキュメントを参照してください。
その他のバージョン
システムロールの設定
多くの場合、Qwen3は独自の推論/思考ブロックを生成するため、システムロールは必要ない場合があります。ただし、必要に応じて以下のシステムロールを使用できます。
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
さまざまなLLM/AIアプリでシステムロールを設定する方法については、「Maximizing - Model - Performance - All...」ドキュメントを参照してください。
出力例
以下は、24エキスパートを使用したモデルの出力例です(Q4KS、CPU)。
例1
- 温度: 1.2
- 繰り返しペナルティ: 1.06
- 繰り返しペナルティ範囲: 64
- topk: 100
- topp: .95
- minp: .05
- 速度: 8 T/S(GPUオフロードなし)
これは中レベルの量子化であり、Imatrix Q4KS / より高い量子化 / 完全精度ではより強力なパフォーマンスが期待できます。
プロンプト:
Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.
思考プロセス:
Thought for 6 minutes 18 seconds
Okay, let's try to figure out how to use nighttime cooling of radiant energy into space to reduce global temperatures. Hmm, first I need to understand what this concept means. Radiant energy into space during night time... maybe it's about the Earth emitting heat radiation at night, which then goes into space? So, if we can enhance that process, maybe we can cool the planet more effectively?
...(省略)
可能な方法:
- 地球の表面の放射率を高める。例えば、高い放射率を持つ材料(黒体など)を使用することで、夜間により多くの熱を放射し、局所的な温度を下げ、場合によっては地球全体の冷却に寄与することができます。
- 大気中の温室効果ガスを削減する。これは夜間に限定されるものではなく、全体的な削減ですが、夜間に太陽光がないときには、温室効果ガスの影響が異なるかもしれません。
- 夜間に大気の条件を変更して、より多くの放射を逃がす。例えば、雲の操作やエアロゾルの調整によって、大気の不透明度を下げることができます。
- 夜間に熱を放射して能動的に冷却するシステムを使用する。例えば、放射率の高い表面を持つ人工構造物を作成し、大規模に設置することができます。
🔧 技術詳細
- このモデルの独特な性質(MOE、サイズ、活性化されたエキスパート、エキスパートのサイズ)により、GGUF量子化はCPU、GPU、またはGPUパートの「オフロード」で、完全精度まで実行できます。
- このモデルはImatrixが難しいです。より大きなimatrixファイル/多言語/多コンテンツ(コード/テキストなど)が必要です。
- GPUの速度は、CPUのみの速度の4 - 8倍以上になり、他の「30B」モデルと比較しても非常に高速です(トークン/秒の速度は、おおよそ7.5Bの「通常」モデルと同等)。
📄 ライセンス
このリポジトリの詳細については、元のモデルカードを参照してください。
⚠️ 重要提示
このモデルを使用する場合は、このドキュメントを参照して、重要なパラメータ、サンプラー、および高度なサンプラーの設定を確認してください。
💡 使用建议
- 一部の使用例では、より高い温度(1+、2+)を試してみることをお勧めします。
- 4、8(通常)、12、および16バージョンも試してみることをお勧めします。これらはトークン/秒の速度が速く、使用例により適している場合があります。