Qwen3 - 30B - A3B - GGUFオープンソース大規模言語モデル - 推論と多言語対応における新たなブレークスルー達成

ホーム

Qwen3 30B A3B GGUF

Qwenによって開発

Qwen3は通義千問シリーズの最新世代大規模言語モデルで、密結合型と混合専門家（MoE）モデルの包括的ソリューションを提供し、推論、指示遵守、エージェント能力、多言語サポートにおいて画期的な進歩を遂げています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #思考モード切り替え #超長文脈推論 #多言語インテリジェントエージェント

ダウンロード数 10.35k

リリース時間 : 5/5/2025

モデル概要

Qwen3-30B-A3B-GGUFは因果言語モデルで、思考モードと非思考モードのシームレスな切り替えをサポートし、複雑な論理推論、数学・プログラミングタスク、効率的な汎用対話に適しています。

モデル特徴

思考モードと非思考モードの切り替え

単一モデル内で思考モード（複雑な論理推論、数学・プログラミング用）と非思考モード（効率的な汎用対話用）をシームレスに切り替え可能。

強化された推論能力

数学、コード生成、常識的論理推論において前世代モデルを凌駕。

人間の嗜好への適合

創造的執筆、ロールプレイ、多段階対話、指示遵守に優れ、より自然で魅力的な対話体験を提供。

エージェント能力

外部ツールを正確に統合し、オープンソースモデルにおける複雑なエージェントタスクでリーディング性能を実現。

多言語サポート

100以上の言語と方言をサポートし、強力な多言語指示遵守と翻訳能力を備える。

モデル能力

テキスト生成

複雑な論理推論

数学計算

コード生成

多言語翻訳

創造的執筆

ロールプレイ

多段階対話

指示遵守

エージェントタスク

使用事例

教育と学習

数学問題解答

数学問題を段階的に推論し、最終解答を\boxed{}で表示。

正確な数学解答と推論プロセスを提供。

プログラミングコンテスト

プログラミングコンテスト問題の解決策を生成。

効率的なコード実装とアルゴリズム説明を提供。

創造とエンターテインメント

創造的執筆

物語、詩などの創造的コンテンツを生成。

創造的で魅力的なテキストコンテンツを提供。

ロールプレイ

様々な役柄の対話と相互作用をシミュレート。

自然で魅力的な対話体験を提供。

ビジネスとオフィス

多言語翻訳

100以上の言語と方言の翻訳タスクをサポート。

高品質な多言語翻訳サービスを提供。

エージェントタスク

外部ツールを統合して複雑なタスクを完了。

複雑なエージェントタスクでリーディング性能を実現。

🚀 Qwen3-30B-A3B-GGUF

Qwen3-30B-A3B-GGUFは、Qwenシリーズの最新の大規模言語モデルです。多様なシナリオでの高性能を実現するため、独自の思考モード切り替え機能や、高度な推論能力を備えています。

🚀 クイックスタート

llama.cpp

詳細な使用方法については、llama.cppのドキュメントを参照してください。

llama.cppを公式ガイドに従ってクローンし、インストールすることをおすすめします。ここでは、llama.cppリポジトリのルートディレクトリでコマンドを実行することを前提としています。

./llama-cli -hf Qwen/Qwen3-30B-A3B:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift

ollama

詳細な使用方法については、ollamaのドキュメントを参照してください。

次のコマンドでQwen3を実行できます。

ollama run hf.co/Qwen/Qwen3-30B-A3B-GGUF:Q8_0

✨ 主な機能

Qwen3の特長

Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルを提供します。広範なトレーニングに基づいて構築され、推論、命令追従、エージェント機能、および多言語サポートにおいて画期的な進歩を遂げています。

単一モデル内での思考モード（複雑な論理推論、数学、コード生成に適し）と非思考モード（効率的な汎用対話に適し）のシームレスな切り替え：様々なシナリオで最適なパフォーマンスを発揮します。
推論能力の大幅な向上：数学、コード生成、および常識的な論理推論において、以前のQwQ（思考モード）およびQwen2.5命令モデル（非思考モード）を上回っています。
高度な人間嗜好のアライメント：創作的な文章作成、ロールプレイ、多ターン対話、および命令追従に優れ、より自然で魅力的な対話体験を提供します。
エージェント機能の専門性：思考モードと非思考モードの両方で外部ツールとの精密な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でトップクラスのパフォーマンスを達成します。
100以上の言語と方言のサポート：多言語の命令追従と翻訳に強力な能力を持っています。

📚 ドキュメント

モデル概要

Qwen3-30B-A3B は以下の特徴を持っています：

属性	详情
モデルタイプ	因果言語モデル
トレーニング段階	事前学習と事後学習
パラメータ数	合計305億個で、33億個がアクティブ
パラメータ数（非埋め込み）	299億個
レイヤー数	48
アテンションヘッド数（GQA）	Qは32、KVは4
エキスパート数	128
アクティブなエキスパート数	8
コンテキスト長	ネイティブで32,768トークン、YaRNを使用して131,072トークン
量子化	q4_K_M、q5_0、q5_K_M、q6_K、q8_0

ベンチマーク評価、ハードウェア要件、および推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。

思考モードと非思考モードの切り替え

ユーザーのプロンプトまたはシステムメッセージに /think または /no_think を追加することで、モデルの思考モードをターンごとに切り替えることができます。多ターン対話では、モデルは最新の指示に従います。

以下は、多ターン対話の例です：

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

長文の処理

Qwen3はネイティブで32,768トークンまでのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える対話の場合、RoPEスケーリング技術を使用して長文を効果的に処理することをおすすめします。YaRN 方法を使用して、最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しています。

llama.cpp でYaRNを有効にするには、次のコマンドを実行します：

./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要提示

すべての著名なオープンソースフレームワークは静的なYaRNを実装しており、これは入力長に関係なくスケーリング係数が一定であることを意味します。これにより、短いテキストでのパフォーマンスが低下する可能性があります。 長いコンテキストを処理する必要がある場合のみ、rope_scaling 設定を追加することをおすすめします。また、必要に応じて factor を変更することもおすすめします。たとえば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factor を2.0に設定するとよいでしょう。

💡 使用建议

アリババモデルスタジオが提供するエンドポイントは、デフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。

ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定をおすすめします：

サンプリングパラメータ：
- 思考モード (enable_thinking=True) の場合、Temperature=0.6、TopP=0.95、TopK=20、MinP=0、および PresencePenalty=1.5 を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード (enable_thinking=False) の場合、Temperature=0.7、TopP=0.8、TopK=20、MinP=0、および PresencePenalty=1.5 を使用することをおすすめします。
- 量子化モデルの場合、繰り返し出力を抑制するために presence_penalty を1.5に設定することをおすすめします。presence_penalty パラメータは0から2の間で調整できます。値が高いと、時々言語の混合やモデルパフォーマンスのわずかな低下を引き起こす可能性があります。
十分な出力長：ほとんどのクエリに対して、32,768トークンの出力長を使用することをおすすめします。数学やプログラミングのコンテストなどの高度に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをおすすめします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力形式の標準化：ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをおすすめします。
- 数学問題：プロンプトに「Please reason step by step, and put your final answer within \boxed{}」を含めます。
- 選択問題：応答を標準化するために、プロンプトに次のJSON構造を追加します：「Please show your choice in the answer field with only the choice letter, e.g., "answer": "C"」。
履歴に思考内容を含めない：多ターン対話では、過去のモデル出力には最終出力部分のみを含め、思考内容は含める必要はありません。これは、Jinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークの場合は、開発者がこのベストプラクティスを遵守するようにする必要があります。

引用

もしこのモデルが役に立った場合は、以下のように引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}