ホーム

Qwen3 8B GGUF

unslothによって開発

Qwen3はQwenシリーズ最新世代の大規模言語モデルで、高密度モデルと混合専門家(MoE)モデルを提供しています。広範なトレーニングに基づき、Qwen3は推論、指示遵守、エージェント能力、多言語サポートにおいて画期的な進歩を遂げました。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #思考モード切り替え #多言語推論 #32K長文対応

ダウンロード数 64.32k

リリース時間 : 4/28/2025

モデル概要

Qwen3-8Bは82億パラメータの因果言語モデルで、100以上の言語と方言をサポートし、強力な推論能力、指示遵守能力、エージェント能力を備えています。

モデル特徴

思考モードと非思考モードの切り替え

単一モデル内でシームレスに思考モード（複雑な論理推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）を切り替え可能

強化された推論能力

数学、コード生成、常識的論理推論において優れた性能を発揮

人間の嗜好への適合

創造的執筆、ロールプレイ、多段階対話、指示遵守において優れた性能

エージェント能力

外部ツールを正確に統合でき、複雑なエージェントタスクで優れた性能を発揮

多言語サポート

100以上の言語と方言をサポートし、強力な多言語指示遵守と翻訳能力を備えている

モデル能力

テキスト生成

論理推論

数学計算

コード生成

多言語翻訳

指示遵守

エージェントタスク処理

使用事例

教育・研究

数学問題解答

複雑な数学問題を解決

数学推論タスクで優れた性能

プログラミング支援

コードの生成と説明

高品質なコードを生成可能

ビジネスアプリケーション

多言語カスタマーサポート

多言語での顧客サポートを提供

100以上の言語での対話をサポート

ドキュメント処理

ドキュメントの自動生成と要約

長文コンテンツを処理可能

base_model: Qwen/Qwen3-8B language:

en library_name: transformers license_link: https://huggingface.co/Qwen/Qwen3-8B/blob/main/LICENSE license: apache-2.0 tags:
qwen3
qwen
unsloth
transformers

Qwen3の全バージョン（GGUF、4ビット＆16ビット形式を含む）は当社のコレクションをご覧ください。

Qwen3を正しく実行する方法 - ガイドを読む。

Unsloth Dynamic 2.0は優れた精度を達成し、他の主要な量子化手法を凌駕します。

✨ UnslothでQwen3を実行＆ファインチューニング！

無料でQwen3（14B）をファインチューニング: Google Colabノートブックはこちら！
Qwen3サポートに関するブログ: unsloth.ai/blog/qwen3
その他のノートブックはドキュメントで確認
ファインチューニングしたモデルをOllama、llama.cppまたはHFにエクスポート可能

Unslothサポート	無料ノートブック	パフォーマンス	メモリ使用量
Qwen3 (14B)	▶️ Colabで開始	3倍高速	70%削減
GRPO with Qwen3 (8B)	▶️ Colabで開始	3倍高速	80%削減
Llama-3.2 (3B)	▶️ Colabで開始	2.4倍高速	58%削減
Llama-3.2 (11B vision)	▶️ Colabで開始	2倍高速	60%削減
Qwen2.5 (7B)	▶️ Colabで開始	2倍高速	60%削減
Phi-4 (14B)	▶️ Colabで開始	2倍高速	50%削減

思考モードと非思考モードの切り替え

llama.cpp、Ollama、Open WebUIなどを使用している場合、ユーザープロンプトやシステムメッセージに/thinkと/no_thinkを追加することで、モデルの思考モードをターンごとに切り替えることができます。モデルはマルチターン会話で最新の指示に従います。

マルチターン会話の例:

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

Qwen3-8B

Qwen3の特徴

Qwen3はQwenシリーズの最新世代大規模言語モデルで、高密度モデルとMixture-of-Experts（MoE）モデルの包括的なスイートを提供します。大規模なトレーニングに基づき、Qwen3は推論、指示追従、エージェント能力、多言語サポートにおいて画期的な進歩をもたらし、以下の主要な特徴を備えています:

単一モデル内で思考モード（複雑な論理的推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）のシームレスな切り替えを独自にサポート、様々なシナリオで最適なパフォーマンスを確保
推論能力の大幅な強化、数学、コード生成、常識的論理推論において従来のQwQ（思考モード）とQwen2.5 instructモデル（非思考モード）を凌駕
優れた人間の嗜好への適合、創造的な文章作成、ロールプレイ、マルチターン対話、指示追従において卓越し、より自然で魅力的な会話体験を提供
エージェント能力に特化、思考モードと非思考モードの両方で外部ツールとの正確な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でリーディングな性能を達成
100以上の言語と方言をサポート、多言語指示追従と翻訳の強力な能力を備える

モデル概要

Qwen3-8Bの特徴:

タイプ: 因果的言語モデル
トレーニング段階: 事前学習＆事後学習
パラメータ数: 8.2B
埋め込み層を除くパラメータ数: 6.95B
レイヤー数: 36
アテンションヘッド数（GQA）: Q用32、KV用8
コンテキスト長: ネイティブ32,768トークン、YaRNで131,072トークンまで拡張可能

詳細なベンチマーク評価、ハードウェア要件、推論性能については、ブログ、GitHub、ドキュメントを参照してください。

クイックスタート

Qwen3のコードは最新のHugging Face transformersに含まれており、transformersの最新バージョンを使用することを推奨します。

transformers<4.51.0を使用すると以下のエラーが発生します:

KeyError: 'qwen3'

以下は、与えられた入力に基づいてモデルがコンテンツを生成する方法を示すコードスニペットです。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-8B"

# トークナイザーとモデルをロード
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# モデル入力を準備
prompt = "大規模言語モデルについて簡単に説明してください。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 思考モードと非思考モードを切り替え。デフォルトはTrue。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# テキスト補完を実行
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 思考コンテンツを解析
try:
    # 151668 (</think>)を検索
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思考コンテンツ:", thinking_content)
print("コンテンツ:", content)

デプロイにはvllm>=0.8.5またはsglang>=0.4.5.post2を使用してOpenAI互換のAPIエンドポイントを作成できます:

vLLM:

vllm serve Qwen/Qwen3-8B --enable-reasoning --reasoning-parser deepseek_r1

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-8B --reasoning-parser deepseek-r1

思考モードと非思考モードの切り替え

[!TIP] enable_thinkingスイッチはvLLMとSGLangで作成されたAPIでも利用可能です。 vLLMとSGLangユーザー向けのドキュメントを参照してください。

`enable_thinking=True`

デフォルトでは、Qwen3は思考能力が有効になっており、QwQ-32Bと同様です。これはモデルが生成する応答の品質を向上させるために推論能力を使用することを意味します。例えば、enable_thinking=Trueを明示的に設定するか、tokenizer.apply_chat_templateでデフォルト値のままにすると、モデルは思考モードになります。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinkingのデフォルト値はTrue
)

このモードでは、モデルは<think>...</think>ブロックで囲まれた思考コンテンツを生成し、その後に最終的な応答が続きます。

[!NOTE] 思考モードでは、Temperature=0.6、TopP=0.95、TopK=20、MinP=0（generation_config.jsonのデフォルト設定）を使用してください。貪欲デコーディングは使用しないでください、性能低下や無限の繰り返しを引き起こす可能性があります。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

`enable_thinking=False`

モデルの思考動作を厳密に無効にするハードスイッチを提供し、従来のQwen2.5-Instructモデルと同様の機能に合わせます。このモードは、効率を向上させるために思考を無効にすることが不可欠なシナリオで特に有用です。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # enable_thinking=Falseを設定すると思考モードが無効になります
)

このモードでは、モデルは思考コンテンツを生成せず、<think>...</think>ブロックを含みません。

[!NOTE] 非思考モードでは、Temperature=0.7、TopP=0.8、TopK=20、MinP=0を使用することを推奨します。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

高度な使用法: ユーザー入力による思考モードと非思考モードの切り替え

enable_thinking=Trueの場合、ユーザーがモデルの動作を動的に制御できるソフトスイッチメカニズムを提供します。具体的には、ユーザープロンプトやシステムメッセージに/thinkと/no_thinkを追加することで、モデルの思考モードをターンごとに切り替えることができます。モデルはマルチターン会話で最新の指示に従います。

マルチターン会話の例:

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-8B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 履歴を更新
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 使用例
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 最初の入力（/thinkや/no_thinkタグなし、デフォルトで思考モードが有効）
    user_input_1 = "いちごに'r'はいくつ含まれますか？"
    print(f"ユーザー: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"ボット: {response_1}")
    print("----------------------")

    # /no_think付きの2番目の入力
    user_input_2 = "では、ブルーベリーに'r'はいくつ含まれますか？ /no_think"
    print(f"ユーザー: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"ボット: {response_2}") 
    print("----------------------")

    # /think付きの3番目の入力
    user_input_3 = "本当ですか？ /think"
    print(f"ユーザー: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"ボット: {response_3}")

注記 API互換性のため、enable_thinking=Trueの場合、ユーザーが/thinkまたは/no_thinkを使用しているかどうかに関係なく、モデルは常に<think>...</think>で囲まれたブロックを出力します。ただし、思考が無効になっている場合、このブロック内のコンテンツは空になることがあります。 enable_thinking=Falseの場合、ソフトスイッチは無効です。ユーザーが入力した/thinkや/no_thinkタグに関係なく、モデルは思考コンテンツを生成せず、<think>...</think>ブロックを含みません。

エージェント的使用

Qwen3はツール呼び出し能力に優れています。Qwen-Agentを使用してQwen3のエージェント能力を最大限に活用することを推奨します。Qwen-Agentはツール呼び出しテンプレートとツール呼び出しパーサーを内部にカプセル化しており、コーディングの複雑さを大幅に軽減します。

利用可能なツールを定義するには、MCP設定ファイルを使用するか、Qwen-Agentの統合ツールを使用するか、自分で他のツールを統合できます。

from qwen_agent.agents import Assistant

# LLMを定義
llm_cfg = {
    'model': 'Qwen3-8B',

    # Alibaba Model Studioが提供するエンドポイントを使用:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # OpenAI API互換のカスタムエンドポイントを使用:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # その他のパラメータ:
    # 'generate_cfg': {
    #         # 追加: 応答内容が`<think>これは思考</think>これは回答`の場合
    #         # 追加しない: 応答がreasoning_contentとcontentで分離されている場合
    #         'thought_in_content': True,
    #     },
}

# ツールを定義
tools = [
    {'mcpServers': {  # MCP設定ファイルを指定可能
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 組み込みツール
]

# エージェントを定義
bot = Assistant(llm=llm_cfg, function_list=tools)

# ストリーミング生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Qwenの最新動向を紹介してください'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

長文処理

Qwen3はネイティブで最大32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話では、RoPEスケーリング技術を使用して長文を効果的に処理することを推奨します。YaRNメソッドを使用して、最大131,072トークンのコンテキスト長でモデルの性能を検証しました。

YaRNは現在、transformersやllama.cpp（ローカル使用）、vllmやsglang（デプロイ）など、いくつかの推論フレームワークでサポートされています。一般的に、サポートされているフレームワークでYaRNを有効にするには2つの方法があります:

モデルファイルを変更: config.jsonファイルにrope_scalingフィールドを追加:

{
    ...,
    "rope_scaling": {
        "type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

llama.cppの場合、変更後にGGUFファイルを再生成する必要があります。

コマンドライン引数を渡す:

vllmの場合:

vllm serve ... --rope-scaling '{"type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

sglangの場合:

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

llama.cppのllama-serverの場合:

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

[!IMPORTANT] 以下の警告が表示された場合:
'rope_type'='yarn'の`rope_scaling`で認識されないキー: {'original_max_position_embeddings'}
transformers>=4.51.0にアップグレードしてください。

[!NOTE] すべての注目すべきオープンソースフレームワークは静的YaRNを実装しており、スケーリングファクターは入力長に関係なく一定です。これにより、短いテキストでの性能に影響を与える可能性があります。 長いコンテキストを処理する必要がある場合にのみrope_scaling設定を追加することを推奨します。また、必要に応じてfactorを調整することをお勧めします。例えば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factorを2.0に設定する方が良いでしょう。

[!NOTE] config.jsonのデフォルトのmax_position_embeddingsは40,960に設定されています。この割り当てには、出力用に32,768トークン、典型的なプロンプト用に8,192トークンが予約されており、短いテキスト処理を含むほとんどのシナリオに十分です。平均的なコンテキスト長が32,768トークンを超えない場合、このシナリオでYaRNを有効にすることは推奨しません。モデルの性能が低下する可能性があります。

[!TIP] Alibaba Model Studioが提供するエンドポイントはデフォルトで動的YaRNをサポートしており、追加の設定は不要です。

ベストプラクティス

最適な性能を達成するために、以下の設定を推奨します:

サンプリングパラメータ:
- 思考モード（enable_thinking=True）では、Temperature=0.6、TopP=0.95、TopK=20、MinP=0を使用してください。貪欲デコーディングは使用しないでください、性能低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード（enable_thinking=False）では、Temperature=0.7、TopP=0.8、TopK=20、MinP=0を使用することを推奨します。
- サポートされているフレームワークでは、presence_penaltyパラメータを0から2の間で調整して無限の繰り返しを減らすことができます。ただし、高い値を使用すると、言語の混合やモデル性能のわずかな低下が発生する可能性があります。
十分な出力長: ほとんどのクエリに対して32,768トークンの出力長を使用することを推奨します。数学やプログラミングコンテストなど、非常に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することを推奨します。これにより、モデルが詳細で包括的な応答を生成するための十分なスペースが確保され、全体的な性能が向上します。
出力形式の標準化: ベンチマーク時にモデルの出力を標準化するためにプロンプトを使用することを推奨します。
- 数学の問題: プロンプトに「段階的に推論し、最終的な答えを\boxed{}内に記述してください。」を含めてください。
- 多肢選択問題: 応答を標準化するために以下のJSON構造をプロンプトに追加してください: 「選択肢をanswerフィールドに選択肢の文字のみで表示してください。例: "answer": "C"。」
履歴に思考コンテンツを含めない: マルチターン会話では、履歴のモデル出力には最終的な出力部分のみを含め、思考コンテンツを含める必要はありません。これはJinja2の提供されたチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークでは、開発者がこのベストプラクティスに従うことを確認する必要があります。

引用

私たちの仕事が役に立った場合は、ぜひ引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}