🚀 Qwen3-30B-A3B-GGUF
Qwen3-30B-A3B-GGUFは、Qwenシリーズの最新の大規模言語モデルです。多様なシナリオでの高性能を実現するため、独自の思考モード切り替え機能や、高度な推論能力を備えています。
🚀 クイックスタート
llama.cpp
詳細な使用方法については、llama.cppのドキュメントを参照してください。
llama.cpp
を公式ガイドに従ってクローンし、インストールすることをおすすめします。ここでは、llama.cpp
リポジトリのルートディレクトリでコマンドを実行することを前提としています。
./llama-cli -hf Qwen/Qwen3-30B-A3B:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift
ollama
詳細な使用方法については、ollamaのドキュメントを参照してください。
次のコマンドでQwen3を実行できます。
ollama run hf.co/Qwen/Qwen3-30B-A3B-GGUF:Q8_0
✨ 主な機能
Qwen3の特長
Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合(MoE)モデルを提供します。広範なトレーニングに基づいて構築され、推論、命令追従、エージェント機能、および多言語サポートにおいて画期的な進歩を遂げています。
- 単一モデル内での思考モード(複雑な論理推論、数学、コード生成に適し)と非思考モード(効率的な汎用対話に適し)のシームレスな切り替え:様々なシナリオで最適なパフォーマンスを発揮します。
- 推論能力の大幅な向上:数学、コード生成、および常識的な論理推論において、以前のQwQ(思考モード)およびQwen2.5命令モデル(非思考モード)を上回っています。
- 高度な人間嗜好のアライメント:創作的な文章作成、ロールプレイ、多ターン対話、および命令追従に優れ、より自然で魅力的な対話体験を提供します。
- エージェント機能の専門性:思考モードと非思考モードの両方で外部ツールとの精密な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でトップクラスのパフォーマンスを達成します。
- 100以上の言語と方言のサポート:多言語の命令追従と翻訳に強力な能力を持っています。
📚 ドキュメント
モデル概要
Qwen3-30B-A3B は以下の特徴を持っています:
属性 |
详情 |
モデルタイプ |
因果言語モデル |
トレーニング段階 |
事前学習と事後学習 |
パラメータ数 |
合計305億個で、33億個がアクティブ |
パラメータ数(非埋め込み) |
299億個 |
レイヤー数 |
48 |
アテンションヘッド数(GQA) |
Qは32、KVは4 |
エキスパート数 |
128 |
アクティブなエキスパート数 |
8 |
コンテキスト長 |
ネイティブで32,768トークン、YaRNを使用して131,072トークン |
量子化 |
q4_K_M、q5_0、q5_K_M、q6_K、q8_0 |
ベンチマーク評価、ハードウェア要件、および推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。
思考モードと非思考モードの切り替え
ユーザーのプロンプトまたはシステムメッセージに /think
または /no_think
を追加することで、モデルの思考モードをターンごとに切り替えることができます。多ターン対話では、モデルは最新の指示に従います。
以下は、多ターン対話の例です:
> Who are you /no_think
<think>
</think>
I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]
> How many 'r's are in 'strawberries'? /think
<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>
The word strawberries contains 3 instances of the letter r. [...]
長文の処理
Qwen3はネイティブで32,768トークンまでのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える対話の場合、RoPEスケーリング技術を使用して長文を効果的に処理することをおすすめします。YaRN 方法を使用して、最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しています。
llama.cpp
でYaRNを有効にするには、次のコマンドを実行します:
./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
⚠️ 重要提示
すべての著名なオープンソースフレームワークは静的なYaRNを実装しており、これは入力長に関係なくスケーリング係数が一定であることを意味します。これにより、短いテキストでのパフォーマンスが低下する可能性があります。
長いコンテキストを処理する必要がある場合のみ、rope_scaling
設定を追加することをおすすめします。
また、必要に応じて factor
を変更することもおすすめします。たとえば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factor
を2.0に設定するとよいでしょう。
💡 使用建议
アリババモデルスタジオが提供するエンドポイントは、デフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。
ベストプラクティス
最適なパフォーマンスを達成するために、以下の設定をおすすめします:
-
サンプリングパラメータ:
- 思考モード (
enable_thinking=True
) の場合、Temperature=0.6
、TopP=0.95
、TopK=20
、MinP=0
、および PresencePenalty=1.5
を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード (
enable_thinking=False
) の場合、Temperature=0.7
、TopP=0.8
、TopK=20
、MinP=0
、および PresencePenalty=1.5
を使用することをおすすめします。
- 量子化モデルの場合、繰り返し出力を抑制するために
presence_penalty
を1.5に設定することをおすすめします。presence_penalty
パラメータは0から2の間で調整できます。値が高いと、時々言語の混合やモデルパフォーマンスのわずかな低下を引き起こす可能性があります。
-
十分な出力長:ほとんどのクエリに対して、32,768トークンの出力長を使用することをおすすめします。数学やプログラミングのコンテストなどの高度に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをおすすめします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
-
出力形式の標準化:ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをおすすめします。
- 数学問題:プロンプトに「Please reason step by step, and put your final answer within \boxed{}」を含めます。
- 選択問題:応答を標準化するために、プロンプトに次のJSON構造を追加します:「Please show your choice in the
answer
field with only the choice letter, e.g., "answer": "C"
」。
-
履歴に思考内容を含めない:多ターン対話では、過去のモデル出力には最終出力部分のみを含め、思考内容は含める必要はありません。これは、Jinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークの場合は、開発者がこのベストプラクティスを遵守するようにする必要があります。
引用
もしこのモデルが役に立った場合は、以下のように引用してください。
@misc{qwen3,
title = {Qwen3},
url = {https://qwenlm.github.io/blog/qwen3/},
author = {Qwen Team},
month = {April},
year = {2025}
}
📄 ライセンス
このモデルは Apache-2.0ライセンス の下で提供されています。