ホーム

Qwen3 235B A22B GPTQ Int4

Qwenによって開発

Qwen3はQwenシリーズ最新世代の大規模言語モデルで、一連の高密度および混合専門家（MoE）モデルを提供します。広範なトレーニングに基づき、Qwen3は推論、指示遵守、エージェント能力、多言語サポートにおいて画期的な進歩を遂げました。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #思考モード切り替え #多言語推論 #長文処理

ダウンロード数 1,563

リリース時間 : 5/10/2025

モデル概要

Qwen3-235B-A22Bは2350億パラメータの大規模言語モデルで、混合専門家アーキテクチャ（MoE）を採用し、220億パラメータを活性化します。思考モードと非思考モードの切り替えをサポートし、強力な推論、多言語、ツール呼び出し能力を備えています。

モデル特徴

思考モード切り替え

思考モード（複雑な推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）の間でシームレスに切り替え可能

強化された推論能力

数学、コード生成、常識的論理推論において優れたパフォーマンスを発揮し、前世代モデルを凌駕

人間の嗜好への適合

創造的執筆、ロールプレイ、多段階対話、指示遵守において優れ、より自然な対話体験を提供

強力なエージェント能力

外部ツールを正確に統合でき、複雑なエージェントタスクでオープンソースモデルのリーディング性能を達成

多言語サポート

100以上の言語と方言をサポートし、強力な多言語指示遵守と翻訳能力を備える

モデル能力

テキスト生成

複雑な推論

数学計算

コード生成

多言語翻訳

ツール呼び出し

長文処理

使用事例

インテリジェント対話

多段階対話

自然で流暢な多段階対話を実現

没入型の対話体験を提供

ロールプレイ

様々な役柄の会話スタイルを模倣

生き生きとした役柄間の相互作用を実現

コードアシスタンス

コード生成

要求に応じてコードスニペットを生成

開発効率を向上

コード解説

複雑なコードの機能を説明

コードロジックの理解を支援

数学推論

数学問題解決

複雑な数学問題を解決

詳細な解法ステップを提供

library_name: transformers license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3-235B-A22B/blob/main/LICENSE pipeline_tag: text-generation base_model: Qwen/Qwen3-235B-A22B

Qwen3-235B-A22B-GPTQ-Int4

Qwen3のハイライト

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、密なモデルとエキスパート混合（MoE）モデルの包括的なスイートを提供します。広範なトレーニングに基づいて構築されたQwen3は、推論、指示追従、エージェント能力、多言語サポートにおいて画期的な進歩をもたらし、以下の主要な特徴を備えています：

思考モード（複雑な論理的推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）の単一モデル内でのシームレスな切り替えを独自にサポートし、さまざまなシナリオで最適なパフォーマンスを確保します。
推論能力の大幅な強化、数学、コード生成、常識的論理推論において、以前のQwQ（思考モード）およびQwen2.5 instructモデル（非思考モード）を凌駕します。
優れた人間の嗜好への適合性、創造的な文章作成、ロールプレイ、多ターン対話、指示追従において優れ、より自然で魅力的で没入感のある会話体験を提供します。
エージェント能力に精通、思考モードと非思考モードの両方で外部ツールとの正確な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でリーディングなパフォーマンスを達成します。
100以上の言語と方言をサポート、多言語指示追従と翻訳の強力な能力を備えています。

モデル概要

Qwen3-235B-A22Bには以下の特徴があります：

タイプ：因果的言語モデル
トレーニング段階：事前トレーニング＆事後トレーニング
パラメータ数：合計235B、活性化22B
パラメータ数（非埋め込み）：234B
レイヤー数：94
アテンションヘッド数（GQA）：Q用64、KV用4
エキスパート数：128
活性化エキスパート数：8
コンテキスト長：ネイティブ32,768、YaRNを使用すると131,072トークン。
量子化：GPTQ 4ビット

詳細については、ベンチマーク評価、ハードウェア要件、推論パフォーマンスなど、ブログ、GitHub、およびドキュメントを参照してください。

クイックスタート

[!IMPORTANT] 現在、transformersにはGPTQ量子化モデルのマルチGPU推論に関する問題があります。デプロイにはSGLangまたはvLLMの使用を推奨します。

デプロイには、sglang>=0.4.6.post1またはvllm==0.8.4を使用してOpenAI互換のAPIエンドポイントを作成できます：

SGLang：

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-GPTQ-Int4 --reasoning-parser qwen3 --tp 4

vLLM：

vllm serve Qwen/Qwen3-235B-A22B-GPTQ-Int4 --enable-reasoning --reasoning-parser deepseek_r1 -tp 4

また、GPTQドキュメントで詳細な使用ガイドを確認してください。

思考モードと非思考モードの切り替え

[!TIP] enable_thinkingスイッチは、SGLangおよびvLLMによって作成されたAPIでも利用可能です。 SGLangおよびvLLMユーザーのためのドキュメントを参照してください。

`enable_thinking=True`

デフォルトでは、Qwen3は思考能力が有効になっており、QwQ-32Bと同様です。これは、モデルが生成応答の品質を向上させるために推論能力を使用することを意味します。例えば、enable_thinking=Trueを明示的に設定するか、tokenizer.apply_chat_templateでデフォルト値のままにすると、モデルは思考モードに入ります。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinkingのデフォルト値はTrueです
)

このモードでは、モデルは<think>...</think>ブロックでラップされた思考内容を生成し、その後に最終応答が続きます。

[!NOTE] 思考モードでは、Temperature=0.6、TopP=0.95、TopK=20、およびMinP=0（generation_config.jsonのデフォルト設定）を使用します。貪欲なデコードを使用しないでください、パフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

`enable_thinking=False`

モデルの思考動作を厳密に無効にするハードスイッチを提供し、その機能を以前のQwen2.5-Instructモデルと一致させます。このモードは、効率を向上させるために思考を無効にすることが不可欠なシナリオで特に有用です。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # enable_thinking=Falseを設定すると思考モードが無効になります
)

このモードでは、モデルは思考内容を生成せず、<think>...</think>ブロックを含みません。

[!NOTE] 非思考モードでは、Temperature=0.7、TopP=0.8、TopK=20、およびMinP=0を使用することをお勧めします。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

高度な使用法：ユーザー入力による思考モードと非思考モードの切り替え

enable_thinking=Trueの場合、ユーザーがモデルの動作を動的に制御できるソフトスイッチメカニズムを提供します。具体的には、ユーザープロンプトまたはシステムメッセージに/thinkおよび/no_thinkを追加して、ターンごとにモデルの思考モードを切り替えることができます。モデルは、多ターン会話で最新の指示に従います。

以下は多ターン会話の例です：

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-235B-A22B-GPTQ-Int4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 履歴を更新
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 使用例
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 最初の入力（/thinkまたは/no_thinkタグなし、思考モードはデフォルトで有効）
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")

    # /no_thinkを含む2番目の入力
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")

    # /thinkを含む3番目の入力
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

[!NOTE] API互換性のため、enable_thinking=Trueの場合、ユーザーが/thinkまたは/no_thinkを使用するかどうかに関係なく、モデルは常に<think>...</think>でラップされたブロックを出力します。ただし、思考が無効になっている場合、このブロック内の内容は空になることがあります。 enable_thinking=Falseの場合、ソフトスイッチは無効です。ユーザーが入力した/thinkまたは/no_thinkタグに関係なく、モデルは思考内容を生成せず、<think>...</think>ブロックを含みません。

エージェント使用

Qwen3はツール呼び出し能力に優れています。Qwen-Agentを使用して、Qwen3のエージェント能力を最大限に活用することをお勧めします。Qwen-Agentは内部でツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に軽減します。

利用可能なツールを定義するには、MCP設定ファイルを使用するか、Qwen-Agentの統合ツールを使用するか、または自分で他のツールを統合することができます。

from qwen_agent.agents import Assistant

# LLMを定義
llm_cfg = {
    'model': 'Qwen3-235B-A22B-GPTQ-Int4',

    # Alibaba Model Studioが提供するエンドポイントを使用：
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # OpenAI APIと互換性のあるカスタムエンドポイントを使用：
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # その他のパラメータ：
    # 'generate_cfg': {
    #         # 追加：応答内容が`<think>this is the thought</think>this is the answer;`の場合
    #         # 追加しない：応答がreasoning_contentとcontentで分離されている場合
    #         'thought_in_content': True,
    #     },
}

# ツールを定義
tools = [
    {'mcpServers': {  # MCP設定ファイルを指定できます
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 組み込みツール
]

# エージェントを定義
bot = Assistant(llm=llm_cfg, function_list=tools)

# ストリーミング生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

長文処理

Qwen3はネイティブで最大32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話では、RoPEスケーリング技術を使用して長文を効果的に処理することをお勧めします。YaRNメソッドを使用して、最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しました。

YaRNは現在、いくつかの推論フレームワークでサポートされています。例えば、ローカル使用のためのtransformers、デプロイのためのvllmおよびsglangなど。一般的に、サポートされているフレームワークでYaRNを有効にするには2つのアプローチがあります：

モデルファイルを変更： config.jsonファイルにrope_scalingフィールドを追加：

{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

コマンドライン引数を渡す：

vllmの場合、以下を使用できます：

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

sglangの場合、以下を使用できます：

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

[!IMPORTANT] 以下の警告が表示された場合：
Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'original_max_position_embeddings'}
transformers>=4.51.0にアップグレードしてください。

[!NOTE] すべての注目すべきオープンソースフレームワークは静的YaRNを実装しており、スケーリングファクターは入力長に関係なく一定のままです。これにより、短いテキストでのパフォーマンスに影響を与える可能性があります。 長いコンテキストの処理が必要な場合にのみrope_scaling設定を追加することをお勧めします。また、必要に応じてfactorを変更することをお勧めします。例えば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factorを2.0に設定する方が良いでしょう。

[!NOTE] config.jsonのデフォルトのmax_position_embeddingsは40,960に設定されています。この割り当てには、出力用に32,768トークン、典型的なプロンプト用に8,192トークンが予約されており、短いテキスト処理を含むほとんどのシナリオで十分です。平均コンテキスト長が32,768トークンを超えない場合、このシナリオではYaRNを有効にすることをお勧めしません。モデルのパフォーマンスが低下する可能性があります。

[!TIP] Alibaba Model Studioが提供するエンドポイントはデフォルトで動的YaRNをサポートしており、追加の設定は必要ありません。

パフォーマンス

モード	量子化タイプ	LiveBench 2024-11-25	GPQA	MMLU-Redux
思考	bf16	77.1	71.1	92.7
思考	GPTQ-int4	75.1	71.9	92.0
非思考	bf16	62.5	62.9	89.2
非思考	GPTQ-int4	61.1	62.8	89.0

ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定を推奨します：

サンプリングパラメータ：
- 思考モード（enable_thinking=True）では、Temperature=0.6、TopP=0.95、TopK=20、およびMinP=0を使用します。貪欲なデコードを使用しないでください、パフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード（enable_thinking=False）では、Temperature=0.7、TopP=0.8、TopK=20、およびMinP=0を使用することをお勧めします。
- サポートされているフレームワークでは、presence_penaltyパラメータを0から2の間で調整して無限の繰り返しを減らすことができます。量子化モデルではこの値を1.5に設定することを強く推奨します。 ただし、より高い値を使用すると、言語の混合やモデルのパフォーマンスのわずかな低下が発生する場合があります。
十分な出力長：ほとんどのクエリに対して32,768トークンの出力長を使用することをお勧めします。数学やプログラミングコンテストなど、非常に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをお勧めします。これにより、モデルが詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力形式の標準化：ベンチマーク時にモデルの出力を標準化するためにプロンプトを使用することをお勧めします。
- 数学問題：プロンプトに「Please reason step by step, and put your final answer within \boxed{}.」を含めます。
- 多肢選択問題：応答を標準化するために、プロンプトに次のJSON構造を追加します：「Please show your choice in the answer field with only the choice letter, e.g., "answer": "C".」
履歴に思考内容を含めない：多ターン会話では、履歴のモデル出力には最終出力部分のみを含め、思考内容を含める必要はありません。これは、Jinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークでは、開発者がベストプラクティスに従うことを確認する必要があります。

引用

私たちの仕事が役に立った場合は、ぜひ引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}