Qwen3-235B-A22B-INT4MIXオープンソース大規模モデル - 多言語対応で指令遵守能力が強い

ホーム

Qwen3 235B A22B INT4MIX

fastllmによって開発

Qwen3-235B-A22Bは通義大規模言語モデルシリーズの最新世代の製品で、一連の密集型と混合専門家（MoE）モデルを提供し、推論、命令遵守、インテリジェントエージェント能力、多言語サポートの面で画期的な進歩を遂げています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #思考モードの切り替え #多言語インテリジェントエージェント #超長コンテキスト

ダウンロード数 144

リリース時間 : 4/30/2025

モデル概要

Qwen3-235B-A22Bは大規模言語モデルで、思考モードと非思考モードをシームレスに切り替えることができ、強力な推論能力と多言語サポートを備え、複雑な論理推論、数学計算、コード生成などの様々なシナリオに適しています。

モデル特徴

思考モードのシームレスな切り替え

思考モード（複雑な論理推論、数学、コーディングに使用）と非思考モード（効率的な汎用対話に使用）の間を自由に切り替えることができ、あらゆるシナリオで最高のパフォーマンスを実現します。

強化された推論能力

数学、コード生成、一般常識の論理推論の面で卓越した性能を発揮し、以前のQwQとQwen2.5命令モデルを上回っています。

高度な人間嗜好適合性

創作的な文章作成、ロールプレイ、多輪対話、命令遵守の面で優れた性能を発揮し、より自然で魅力的で没入感のある対話体験を提供します。

卓越したインテリジェントエージェント能力

思考モードと非思考モードの両方で外部ツールと正確に統合でき、複雑なエージェントベースのタスクで、オープンソースモデルの中でトップレベルの性能を達成します。

多言語サポート

100種類以上の言語と方言をサポートし、強力な多言語命令遵守と翻訳能力を備えています。

モデル能力

テキスト生成

複雑な論理推論

数学計算

コード生成

多言語翻訳

インテリジェントエージェントタスク処理

多輪対話

創作的な文章作成

ロールプレイ

使用事例

教育と研究

数学問題の解答

複雑な数学問題を解くために使用され、段階的な推論と最終的な答えを提供します。

数学コンテストの問題で優れた成績を収めます。

プログラミング支援

コード断片を生成したり、プログラミングコンテストの問題を解決したりします。

コード生成タスクで前代のモデルを上回ります。

ビジネスとカスタマーサービス

多言語カスタマーサービス

多言語のカスタマーサービス対話をサポートします。

自然で流暢な多言語対話体験を提供します。

インテリジェントアシスタント

インテリジェントアシスタントとして複雑なユーザー命令を処理します。

命令遵守とタスク完了の面で卓越した性能を発揮します。

創作とエンターテイメント

創作的な文章作成

物語、詩などの創作コンテンツを生成します。

魅力的な創作コンテンツを提供します。

ロールプレイ

異なるキャラクターの対話とインタラクションを模擬します。

没入感のあるロールプレイ体験を提供します。

🚀 Qwen3-235B-A22B

Qwen3-235B-A22Bは、Qwenシリーズの最新世代の大規模言語モデルです。複雑な論理推論や多言語対応など、幅広いシナリオで高い性能を発揮します。また、思考モードと非思考モードの切り替えが可能で、様々なタスクに柔軟に対応できます。

✨ 主な機能

Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。大規模なトレーニングを基に構築され、推論、命令追従、エージェント機能、および多言語サポートにおいて画期的な進歩を遂げています。以下に主要な特徴を示します。

単一モデル内での思考モード（複雑な論理推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）のシームレスな切り替えを独自にサポートし、様々なシナリオで最適なパフォーマンスを確保します。
推論能力が大幅に向上し、数学、コード生成、および日常の論理推論において、以前のQwQ（思考モード）およびQwen2.5命令モデル（非思考モード）を上回っています。
高度な人間嗜好のアライメントが実現され、創作的な文章作成、ロールプレイ、多ターン対話、および命令追従に優れ、より自然で魅力的な対話体験を提供します。
エージェント機能に特化しており、思考モードと非思考モードの両方で外部ツールとの精密な統合が可能で、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でもトップクラスのパフォーマンスを達成します。
100以上の言語と方言をサポートし、多言語命令追従と翻訳に強力な能力を持っています。

📚 ドキュメント

モデル概要

Qwen3-235B-A22B は以下の特徴を持っています。

属性	详情
モデルタイプ	因果言語モデル
トレーニング段階	事前学習と事後学習
パラメータ数	合計235B、活性化されるのは22B
パラメータ数（非埋め込み）	234B
レイヤー数	94
アテンションヘッド数（GQA）	Qは64、KVは4
エキスパート数	128
活性化エキスパート数	8
コンテキスト長	ネイティブで32,768、YaRNを使用して131,072トークン

ベンチマーク評価、ハードウェア要件、および推論パフォーマンスを含む詳細については、ブログ、GitHub、およびドキュメントを参照してください。

🚀 クイックスタート

Qwen3-MoEのコードは最新のHugging Face transformers に含まれており、最新バージョンの transformers の使用をおすすめします。

transformers<4.51.0 を使用すると、以下のエラーが発生する場合があります。

KeyError: 'qwen3_moe'

以下は、与えられた入力に基づいてモデルがコンテンツを生成する方法を示すコードスニペットです。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B"

# トークナイザーとモデルをロード
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# モデル入力を準備
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 思考モードと非思考モードを切り替えます。デフォルトはTrueです。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# テキスト生成を実行
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 思考コンテンツを解析
try:
    # rindexで151668 (</think>) を検索
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

デプロイメントには、sglang>=0.4.6.post1 または vllm>=0.8.4 を使用して、OpenAI互換のAPIエンドポイントを作成できます。

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B --reasoning-parser qwen3

vLLM:

vllm serve Qwen/Qwen3-235B-A22B --enable-reasoning --reasoning-parser deepseek_r1

ローカルでの使用には、llama.cpp、Ollama、LMStudio、およびMLX-LMなどのアプリケーションもQwen3をサポートしています。

💻 使用例

基本的な使用法

上述のクイックスタートのコードが基本的な使用方法を示しています。

高度な使用法

思考モードと非思考モードの切り替え

💡 使用アドバイス

SGLangとvLLMによって作成されたAPIでも enable_thinking スイッチを使用できます。 SGLang と vLLM のユーザー向けのドキュメントを参照してください。

`enable_thinking=True`

デフォルトでは、Qwen3はQwQ-32Bと同様に思考能力が有効になっています。これは、モデルが推論能力を使用して生成される応答の品質を向上させることを意味します。たとえば、tokenizer.apply_chat_template で enable_thinking=True を明示的に設定するか、デフォルト値のままにすると、モデルは思考モードを有効にします。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinkingのデフォルト値はTrueです
)

このモードでは、モデルは <think>...</think> ブロックで囲まれた思考コンテンツを生成し、その後に最終的な応答が続きます。

⚠️ 重要な注意

思考モードでは、Temperature=0.6、TopP=0.95、TopK=20、および MinP=0（generation_config.json のデフォルト設定）を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

`enable_thinking=False`

モデルの思考動作を厳密に無効にするハードスイッチを提供しています。これにより、機能が以前のQwen2.5-Instructモデルと一致します。このモードは、思考を無効にすることが効率向上に不可欠なシナリオで特に有用です。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # enable_thinking=Falseを設定すると思考モードが無効になります
)

このモードでは、モデルは思考コンテンツを生成せず、<think>...</think> ブロックも含まれません。

⚠️ 重要な注意

非思考モードでは、Temperature=0.7、TopP=0.8、TopK=20、および MinP=0 を使用することをおすすめします。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

ユーザー入力による思考モードと非思考モードの切り替え

enable_thinking=True の場合、ユーザーがモデルの動作を動的に制御できるソフトスイッチメカニズムを提供しています。具体的には、ユーザーのプロンプトまたはシステムメッセージに /think および /no_think を追加することで、ターンごとにモデルの思考モードを切り替えることができます。モデルは多ターン会話で最新の指示に従います。

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-235B-A22B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 履歴を更新
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 例の使用方法
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 最初の入力（/thinkまたは/no_thinkタグなし、デフォルトで思考モードが有効）
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")

    # 2番目の入力に/no_thinkを追加
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")

    # 3番目の入力に/thinkを追加
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

⚠️ 重要な注意

API互換性のため、enable_thinking=True の場合、ユーザーが /think または /no_think を使用するかどうかに関係なく、モデルは常に <think>...</think> で囲まれたブロックを出力します。ただし、思考が無効になっている場合、このブロック内のコンテンツは空になる可能性があります。 enable_thinking=False の場合、ソフトスイッチは無効です。ユーザーが入力した /think または /no_think タグに関係なく、モデルは思考コンテンツを生成せず、<think>...</think> ブロックも含まれません。

エージェントとしての使用

Qwen3はツール呼び出し機能に優れています。Qwen3のエージェント機能を最大限に活用するには、Qwen-Agent の使用をおすすめします。Qwen-Agentは内部でツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に削減します。

from qwen_agent.agents import Assistant

# LLMを定義
llm_cfg = {
    'model': 'Qwen3-235B-A22B',

    # Alibaba Model Studioが提供するエンドポイントを使用する場合:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # OpenAI APIと互換性のあるカスタムエンドポイントを使用する場合:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # その他のパラメータ:
    # 'generate_cfg': {
    #         # 追加: 応答コンテンツが `<think>this is the thought</think>this is the answer;` の場合
    #         # 追加しない: 応答がreasoning_contentとcontentで分離されている場合
    #         'thought_in_content': True,
    #     },
}

# ツールを定義
tools = [
    {'mcpServers': {  # MCP設定ファイルを指定できます
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 組み込みツール
]

# エージェントを定義
bot = Assistant(llm=llm_cfg, function_list=tools)

# ストリーミング生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

長文の処理

Qwen3はネイティブで最大32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話の場合、RoPEスケーリング技術を使用して長文を効果的に処理することをおすすめします。YaRN 方法を使用して、最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しています。

YaRNは現在、いくつかの推論フレームワークでサポートされています。たとえば、ローカルでの使用には transformers と llama.cpp、デプロイメントには vllm と sglang がサポートしています。一般的に、サポートされているフレームワークでYaRNを有効にするには、以下の2つのアプローチがあります。

モデルファイルを変更する: config.json ファイルに rope_scaling フィールドを追加します。
```
{
    ...,
    "rope_scaling": {
        "type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}
```
llama.cpp の場合は、変更後にGGUFファイルを再生成する必要があります。

コマンドライン引数を渡す: vllm の場合は、以下のコマンドを使用できます。

vllm serve ... --rope-scaling '{"type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

sglang の場合は、以下のコマンドを使用できます。

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

llama.cpp の llama-server の場合は、以下のコマンドを使用できます。

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要な注意

以下の警告が表示された場合は、transformers>=4.51.0 にアップグレードしてください。

Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'original_max_position_embeddings'}

⚠️ 重要な注意

すべての著名なオープンソースフレームワークは静的なYaRNを実装しています。これは、スケーリング係数が入力長に関係なく一定であり、短いテキストでのパフォーマンスに影響を与える可能性があることを意味します。長いコンテキストを処理する必要がある場合のみ、rope_scaling 設定を追加することをおすすめします。また、必要に応じて factor を変更することもおすすめします。たとえば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factor を2.0に設定するとよいでしょう。

⚠️ 重要な注意

config.json のデフォルトの max_position_embeddings は40,960に設定されています。この割り当てには、出力用に32,768トークンと、典型的なプロンプト用に8,192トークンが予約されており、短いテキスト処理を伴うほとんどのシナリオに十分です。平均コンテキスト長が32,768トークンを超えない場合は、このシナリオでYaRNを有効にすることはおすすめしません。これはモデルのパフォーマンスを低下させる可能性があります。

💡 使用アドバイス

Alibaba Model Studioが提供するエンドポイントはデフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。

🔧 技術詳細

ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定をおすすめします。

サンプリングパラメータ:
- 思考モード (enable_thinking=True) では、Temperature=0.6、TopP=0.95、TopK=20、および MinP=0 を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード (enable_thinking=False) では、Temperature=0.7、TopP=0.8、TopK=20、および MinP=0 を使用することをおすすめします。
- サポートされているフレームワークでは、presence_penalty パラメータを0から2の間で調整して、無限の繰り返しを減らすことができます。ただし、より高い値を使用すると、時々言語の混合やモデルパフォーマンスのわずかな低下を引き起こす可能性があります。
十分な出力長: ほとんどのクエリでは、32,768トークンの出力長を使用することをおすすめします。数学やプログラミングコンテストなどの高度に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをおすすめします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力形式を標準化: ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをおすすめします。
- 数学問題: プロンプトに "Please reason step by step, and put your final answer within \boxed{}." を含めます。
- 選択問題: 応答を標準化するために、以下のJSON構造をプロンプトに追加します。"Please show your choice in the answer field with only the choice letter, e.g., "answer": "C"."
履歴に思考コンテンツを含めない: 多ターン会話では、過去のモデル出力は最終出力部分のみを含める必要があり、思考コンテンツを含める必要はありません。これは提供されているJinja2のチャットテンプレートで実装されています。ただし、Jinja2のチャットテンプレートを直接使用しないフレームワークの場合は、開発者がこのベストプラクティスに従うようにする必要があります。

引用

もし私たちの研究が役に立った場合は、以下のように引用していただけると幸いです。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}