Qwen3-8B-GPTQ-Int4オープンソース大規模言語モデル - 無料でデプロイ可能、多言語対応、強力な推論能力

ホーム

Qwen3 8B GPTQ Int4

JunHowieによって開発

Qwen3-4BはQwenシリーズの最新の大規模言語モデルで、思考モードの切り替え能力、強力な推論能力、優れた人間の嗜好の整合、卓越したエージェント能力、および多言語サポートを備えています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #思考モードの切り替え #多言語推論 #エージェントツールの呼び出し

ダウンロード数 2,365

リリース時間 : 4/30/2025

モデル概要

Qwen3-4Bは40億パラメータの大規模言語モデルで、思考モードと非思考モードの切り替えをサポートし、複雑な論理推論、数学計算、コード生成、および一般的な対話などのさまざまなシナリオに適しています。

モデル特徴

思考モードの切り替え

複雑な推論に使用する思考モードと、効率的な対話に使用する非思考モードの間をシームレスに切り替えることができ、さまざまなシナリオのニーズに対応します。

強化された推論能力

数学、コード生成、および一般常識の論理推論において、前代のモデルを大幅に上回る性能を発揮します。

人間の嗜好の整合

創作的な文章作成、ロールプレイング、および多輪対話において、より自然で没入感のある体験を提供します。

エージェント能力

外部ツールとの統合をサポートし、複雑なエージェントタスクにおいて優れた性能を発揮します。

長文脈サポート

ネイティブで32Kの文脈長をサポートし、YaRN技術により131Kトークンまで拡張可能です。

モデル能力

複雑な論理推論

数学計算

コード生成

多言語翻訳

創作的な文章作成

ロールプレイング

多輪対話

ツールの呼び出し

使用事例

教育と研究

数学問題の解答

複雑な数学問題を解き、段階的な推論過程を提供します。

数学推論のベンチマークテストで優れた成績を収めています。

プログラミング教育

コード例を生成し、プログラミング概念を説明します。

複数のプログラミング言語のコード生成をサポートしています。

商業アプリケーション

多言語カスタマーサポート

100種以上の言語でのカスタマーサポート対話を提供します。

自然でスムーズな多言語対話を実現します。

コンテンツ作成

創作的なコピーやマーケティングコンテンツの生成を支援します。

人間の嗜好に合った自然なテキストを生成します。

開発者ツール

エージェント開発

外部ツールを呼び出すことができるスマートアプリケーションを構築します。

複雑なタスクにおいて優れた性能を発揮します。

APIサービス

vLLMまたはSGLangを通じてOpenAI互換のAPIをデプロイします。

高い並列処理能力を持つ推論サービスをサポートします。

🚀 Qwen3-4B

Qwen3-4BはQwenシリーズの最新の大規模言語モデルで、独特な思考モード切り替え機能、強力な推論能力、優れた人間嗜好のアライメント、卓越したエージェント能力、および多言語サポートを備えています。これにより、ユーザーに自然で豊富かつ没入感のある対話体験を提供します。

🚀 クイックスタート

Qwen3のコードは最新版のHugging Face transformers ライブラリに統合されています。最新バージョンの transformers の使用をおすすめします。

transformers<4.51.0 を使用すると、次のようなエラーが発生します。

KeyError: 'qwen3'

以下は、与えられた入力に基づいてこのモデルを使用して内容を生成する方法を示すコード例です。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-4B"

# トークナイザーとモデルをロードする
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# モデル入力を準備する
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 思考モードと非思考モードを切り替えます。デフォルト値はTrueです。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# テキスト生成を行う
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 思考内容を解析する
try:
    # rindexで151668 (</think>) を検索する
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

デプロイする際には、sglang>=0.4.6.post1 または vllm>=0.8.5 を使用して、OpenAI互換のAPIエンドポイントを作成できます。

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-4B --reasoning-parser qwen3

vLLM:

vllm serve Qwen/Qwen3-4B --enable-reasoning --reasoning-parser deepseek_r1

ローカルで使用する場合、Ollama、LMStudio、MLX-LM、llama.cpp、およびKTransformersなどのアプリケーションもQwen3をサポートしています。

✨ 主な機能

Qwen3の特長

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、包括的な密集モデルとエキスパート混合（MoE）モデルを提供します。大量のトレーニングに基づき、Qwen3は推論、命令遵守、エージェント能力、および多言語サポートにおいて画期的な進歩を遂げており、次のような重要な特性を持っています。

単一モデル内での独特な思考モード（複雑な論理推論、数学、コーディングに使用）と非思考モード（効率的な汎用対話に使用）のシームレスな切り替え：あらゆるシチュエーションで最高のパフォーマンスを実現します。
推論能力の大幅な向上：数学、コード生成、および一般常識の論理推論において、以前のQwQ（思考モード）およびQwen2.5命令モデル（非思考モード）を上回っています。
卓越した人間嗜好のアライメント：創作的な文章作成、ロールプレイング、多輪対話、および命令遵守において優れた性能を発揮し、より自然で魅力的で没入感のある対話体験を提供します。
出色なエージェント能力：思考モードと非思考モードの両方で外部ツールと正確に統合でき、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でトップクラスのパフォーマンスを達成します。
100以上の言語と方言をサポート：強力な多言語命令遵守および翻訳能力を備えています。

📚 ドキュメント

モデルの概要

Qwen3-4B は以下の特徴を持っています。

属性	詳細
モデルタイプ	因果言語モデル
トレーニング段階	事前トレーニングと事後トレーニング
パラメータ数	40億
パラメータ数（非埋め込み）	36億
レイヤー数	36
アテンションヘッド数（GQA）	Qは32、KVは8
コンテキスト長	ネイティブで32768、YaRNを使用すると 131072トークン

ベンチマーク評価、ハードウェア要件、および推論パフォーマンスを含む詳細情報については、ブログ、GitHub、およびドキュメントを参照してください。

⚠️ 重要な注意

深刻な無限繰り返し問題が発生した場合は、ベストプラクティスセクションを参照して最適なサンプリングパラメータを取得し、presence_penalty を1.5に設定してください。

思考モードと非思考モードの切り替え

💡 使用上のヒント

SGLangとvLLMで作成されたAPIにも enable_thinking スイッチが用意されています。SGLang および vLLM のユーザー向けに提供されているドキュメントを参照してください。

`enable_thinking=True`

デフォルトでは、Qwen3は思考能力が有効になっており、QwQ - 32Bに似ています。これは、モデルが推論能力を活用して生成される応答の品質を向上させることを意味します。たとえば、tokenizer.apply_chat_template で enable_thinking=True を明示的に設定するか、デフォルト値のままにすると、モデルは思考モードに入ります。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinkingのデフォルト値はTrueです
)

このモードでは、モデルは <think>...</think> ブロックで囲まれた思考内容を生成し、その後に最終的な応答が続きます。

⚠️ 重要な注意

思考モードでは、Temperature=0.6、TopP=0.95、TopK=20、および MinP=0（generation_config.json のデフォルト設定）を使用してください。貪欲デコードを使用しないでください。これはパフォーマンスの低下や無限繰り返しを引き起こす可能性があります。詳細なガイドについては、ベストプラクティスセクションを参照してください。

`enable_thinking=False`

モデルの思考動作を厳密に無効にし、以前のQwen2.5 - Instructモデルと同じ機能にするためのハードスイッチを提供しています。このモードは、思考を無効にして効率を向上させる必要があるシチュエーションで特に有用です。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # enable_thinkingをFalseに設定すると思考モードが無効になります
)

このモードでは、モデルは思考内容を生成せず、<think>...</think> ブロックも含まれません。

⚠️ 重要な注意

非思考モードでは、Temperature=0.7、TopP=0.8、TopK=20、および MinP=0 の使用をおすすめします。詳細なガイドについては、ベストプラクティスセクションを参照してください。

高度な使用法：ユーザー入力による思考モードと非思考モードの切り替え

enable_thinking=True のときにユーザーがモデルの動作を動的に制御できるソフトスイッチ機構を提供しています。具体的には、ユーザーのプロンプトまたはシステムメッセージに /think および /no_think を追加することで、1ターンごとにモデルの思考モードを切り替えることができます。多輪対話では、モデルは最新の命令に従います。

以下は多輪対話の例です。

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-4B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 履歴を更新する
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 例の使用法
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 最初の入力（/thinkまたは/no_thinkラベルなし、デフォルトで思考モードが有効）
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")

    # 2回目の入力に/no_thinkを付ける
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")

    # 3回目の入力に/thinkを付ける
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

⚠️ 重要な注意

API互換性を実現するために、enable_thinking=True のときは、ユーザーが /think または /no_think を使用するかどうかに関係なく、モデルは常に <think>...</think> で囲まれたブロックを出力します。ただし、思考が無効になっている場合、このブロック内の内容は空になる可能性があります。enable_thinking=False のときは、ソフトスイッチは無効です。ユーザーが /think または /no_think ラベルを入力しても、モデルは思考内容を生成せず、<think>...</think> ブロックも含まれません。

エージェントの使用

Qwen3はツール呼び出し能力に優れています。Qwen3のエージェント能力を最大限に引き出すには、Qwen - Agent の使用をおすすめします。Qwen - Agentは内部でツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に軽減します。

利用可能なツールを定義するには、MCP構成ファイルを使用するか、Qwen - Agentの統合ツールを使用するか、または独自に他のツールを統合することができます。

from qwen_agent.agents import Assistant

# 大規模言語モデルを定義する
llm_cfg = {
    'model': 'Qwen3-4B',

    # 阿里云魔搭プラットフォームが提供するエンドポイントを使用する：
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # OpenAI API互換のカスタムエンドポイントを使用する：
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # その他のパラメータ：
    # 'generate_cfg': {
    #         # 追加：応答内容が `<think>this is the thought</think>this is the answer;` の場合
    #         # 追加しない：応答がreasoning_contentとcontentで区切られている場合。
    #         'thought_in_content': True,
    #     },
}

# ツールを定義する
tools = [
    {'mcpServers': {  # MCP構成ファイルを指定できます
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 組み込みツール
]

# エージェントを定義する
bot = Assistant(llm=llm_cfg, function_list=tools)

# ストリーミング生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

長文処理

Qwen3はネイティブで32768トークンまでのコンテキスト長をサポートしています。総長（入力と出力を含む）がこの制限を大幅に超える対話の場合、長文を効果的に処理するためにRoPEスケーリング技術の使用をおすすめします。YaRN 方法を使用して、モデルが最大131072トークンのコンテキスト長での性能を検証しています。

現在、いくつかの推論フレームワークがYaRNをサポートしており、たとえばローカルで使用する transformers と llama.cpp、デプロイに使用する vllm と sglang などがあります。一般的に、サポートされているフレームワークでYaRNを有効にする方法は2つあります。

モデルファイルを変更する： config.json ファイルに rope_scaling フィールドを追加します。
```
{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}
```
llama.cpp の場合は、変更後にGGUFファイルを再生成する必要があります。

コマンドライン引数を渡す： vllm の場合は、次のように使用できます。

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

sglang の場合は、次のように使用できます。

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

llama.cpp の llama-server の場合は、次のように使用できます。

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要な注意

次の警告が表示された場合：
Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'original_max_position_embeddings'}
transformers を >=4.51.0 にアップグレードしてください。

⚠️ 重要な注意

すべての著名なオープンソースフレームワークは静的なYaRNを実装しています。これは、入力長に関係なくスケーリング係数が一定であることを意味し、短いテキストのパフォーマンスに影響を与える可能性があります。長いコンテキストを処理する必要がある場合のみ、rope_scaling 構成を追加することをおすすめします。また、必要に応じて factor を変更することもおすすめします。たとえば、アプリケーションの典型的なコンテキスト長が65536トークンの場合、factor を2.0に設定するのが最適です。

⚠️ 重要な注意

config.json のデフォルトの max_position_embeddings 設定は40960です。この割り当てには、出力用に32768トークンと、典型的なプロンプト用に8192トークンが含まれており、ほとんどの短文処理シチュエーションに十分です。平均コンテキスト長が32768トークンを超えない場合、この場合はYaRNを有効にしないことをおすすめします。これはモデルのパフォーマンスを低下させる可能性があります。

💡 使用上のヒント

阿里云魔搭プラットフォームが提供するエンドポイントはデフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。

ベストプラクティス

最高のパフォーマンスを実現するために、以下の設定をおすすめします。

サンプリングパラメータ：
- 思考モード（enable_thinking=True）では、Temperature=0.6、TopP=0.95、TopK=20、および MinP=0 を使用してください。貪欲デコードを使用しないでください。これはパフォーマンスの低下や無限繰り返しを引き起こす可能性があります。
- 非思考モード（enable_thinking=False）では、Temperature=0.7、TopP=0.8、TopK=20、および MinP=0 の使用をおすすめします。
- サポートされているフレームワークでは、presence_penalty パラメータを0から2の間で調整して無限繰り返しを減らすことができます。ただし、高い値を使用すると、時折言語の混合やモデルのパフォーマンスのわずかな低下が発生する可能性があります。
十分な出力長：ほとんどのクエリでは、32768トークンの出力長を使用することをおすすめします。数学やプログラミングコンテストの問題など、非常に複雑な問題のベンチマークでは、最大出力長を38912トークンに設定することをおすすめします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力形式の標準化：ベンチマークを行う際には、モデルの出力を標準化するためにプロンプトを使用することをおすすめします。
- 数学問題：プロンプトに "Please reason step by step, and put your final answer within \boxed{}." を含めてください。
- 選択問題：応答を標準化するために、プロンプトに以下のJSON構造を追加してください。"Please show your choice in the answer field with only the choice letter, e.g., "answer": "C"."
履歴に思考内容を含めない：多輪対話では、履歴のモデル出力には最終出力部分のみを含め、思考内容は含めないでください。提供されているJinja2チャットテンプレートではこれが実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークの場合は、開発者がベストプラクティスに従うようにする必要があります。

引用

私たちの仕事が役に立ったと思われる場合は、自由に引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}