Qwen3 4B Llamafile

Mozillaによって開発

Qwen3-4BはQwenシリーズ最新世代の大規模言語モデルで、4Bパラメータ規模を持ち、128kコンテキストウィンドウと100以上の言語をサポートし、推論、指示追従、エージェント能力において優れた性能を発揮します。

大規模言語モデルオープンソースライセンス:Apache-2.0 #思考モード切替 #128k長文処理 #多言語対話

ダウンロード数 995

リリース時間 : 5/14/2025

モデル概要

Qwen3-4Bは4Bパラメータの因果的言語モデルで、思考モードと非思考モードの切り替えをサポートし、数学推論、コード生成、多言語処理において優れた性能を発揮します。

モデル特徴

デュアルモード切替

思考モード(複雑な推論用)と非思考モード(効率的な対話用)の間でシームレスに切り替え可能

強化された推論能力

数学、コード生成、論理推論において前世代モデルを凌駕

多言語サポート

100以上の言語と方言の指示追従と翻訳をサポート

長文脈処理

ネイティブで32kトークンをサポート、YaRNにより128kコンテキストウィンドウまで拡張可能

モデル能力

テキスト生成

マルチターン対話

コード生成

数学推論

多言語翻訳

ツール使用

長文処理

使用事例

インテリジェントアシスタント

多言語カスタマーサポート

多言語でのカスタマーサービス対話を提供

100以上の言語でスムーズなコミュニケーションをサポート

知識QA

様々な知識質問に回答

正確で詳細な解答を提供

教育

数学指導

学生の数学問題解決を支援

ステップバイステップの解法を提供

プログラミング教育

プログラミング概念の説明とコードデバッグ

実行可能なコード例を生成

license: apache-2.0 pipeline_tag: text-generation license_link: LICENSE base_model:

Qwen/Qwen3-4B-Base quantized_by: bartowski tags:
llamafile
chat

Qwen 3 4B - llamafile

モデル作成者: Qwen
オリジナルモデル: Qwen/Qwen3-4B

MozillaはQwen 3モデルをllamafileと呼ばれる実行可能な重みファイルにパッケージ化しました。これにより、Linux、MacOS、Windows、FreeBSD、OpenBSD、NetBSDシステム上でAMD64とARM64の両アーキテクチャにおいて、最も簡単かつ迅速にモデルを使用できます。

ソフトウェア最終更新日: 2025-05-14 Llamafileバージョン: 0.9.3

クイックスタート

開始するには、Qwen 3の重みファイルとllamafileソフトウェアの両方が必要です。これらは単一ファイルに含まれており、以下のようにダウンロードして実行できます:

wget https://huggingface.co/Mozilla/Qwen3-0.6B-llamafile/resolve/main/Qwen_Qwen3-4B-Q4_K_M.llamafile
chmod +x Qwen_Qwen3-4B-Q4_K_M.llamafile
./Qwen_Qwen3-4B-Q4_K_M.llamafile

これらのllamafileのデフォルト動作モードは、新しいコマンドライン chatbot インターフェースです。

使用方法

複数行の質問をするには三重引用符を使用できます。/statsや/contextなどのコマンドを渡すことでランタイムステータス情報を確認できます。システムプロンプトを変更するには-p "新しいシステムプロンプト"フラグを渡します。CTRL-Cでモデルの生成を中断でき、CTRL-Dで終了できます。

Web GUIを好む場合は、--serverモードが提供されており、ブラウザでchatbotと補完インターフェースが開きます。追加のヘルプが必要な場合は--helpフラグを渡してください。サーバーにはPythonのopenaiパッケージを使用してアクセス可能なOpenAI API互換の補完エンドポイントもあります。

./Qwen_Qwen3-4B-Q4_K_M.llamafile --server

シェルスクリプトに有用な高度なCLIモードも提供されており、--cliフラグを渡すことで使用できます。追加のヘルプが必要な場合は--helpフラグを渡してください。

./Qwen_Qwen3-4B-Q4_K_M.llamafile --cli -p 'four score and seven' --log-disable

トラブルシューティング

問題が発生しましたか？ READMEの"Gotchas"セクションを参照してください。

Linuxでrun-detectorエラーを回避するには、APEインタプリタをインストールします。

sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
sudo sh -c "echo ':APE-jart:M::jartsr::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"

Windowsでは実行ファイルサイズに4GBの制限があります。

コンテキストウィンドウ

このモデルの最大コンテキストウィンドウサイズは128kトークンです。デフォルトでは8192トークンのコンテキストウィンドウサイズが使用されます。最大コンテキストサイズを使用するには-c 0フラグを渡します。これは小さな本に十分なサイズです。本との対話を可能にしたい場合は-f book.txtフラグを使用できます。

GPUアクセラレーション

十分なRAMを搭載したGPUでは、-ngl 999フラグを渡すことでシステムのNVIDIAまたはAMD GPUを使用できます。Windowsでは、NVIDIA GPUを所有している場合、グラフィックスカードドライバのみをインストールする必要があります。WindowsでAMD GPUを使用する場合は、ROCm SDK v6.1をインストールし、初めてllamafileを実行する際に--recompile --gpu amdフラグを渡す必要があります。

NVIDIA GPUでは、デフォルトで事前ビルドされたtinyBLASライブラリが行列乗算に使用されます。これはオープンソースソフトウェアですが、クローズドソースのcuBLASほど高速ではありません。システムにCUDA SDKがインストールされている場合、--recompileフラグを渡すことで、cuBLASを使用するGGML CUDAライブラリをシステム専用にビルドできます。これにより最大のパフォーマンスが得られます。

詳細については、llamafile READMEを参照してください。

llamafileについて

llamafileはMozillaが2023年11月20日に導入した新しいフォーマットです。Cosmopolitan Libcを使用してLLMの重みを実行可能なllama.cppバイナリに変換し、ARM64とAMD64の両方で6つのOSの標準インストール上で動作します。

Qwen3-4B

Qwen3の特徴

Qwen3はQwenシリーズの最新世代大規模言語モデルで、密なモデルとMixture-of-Experts（MoE）モデルの包括的なスイートを提供します。大規模なトレーニングに基づいて構築されたQwen3は、推論、指示追従、エージェント能力、多言語サポートにおいて画期的な進歩をもたらし、以下の主要な特徴があります:

思考モード（複雑な論理的推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）のシームレスな切り替えを単一モデル内で独自にサポートし、様々なシナリオで最適なパフォーマンスを確保。
推論能力の大幅な強化、数学、コード生成、常識的論理推論において、従来のQwQ（思考モード）とQwen2.5 instructモデル（非思考モード）を凌駕。
優れた人間の嗜好への適合、創造的な執筆、ロールプレイ、多ターン対話、指示追従において卓越し、より自然で魅力的な会話体験を提供。
エージェント能力の専門性、思考モードと非思考モードの両方で外部ツールとの正確な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデルの中でリーディングなパフォーマンスを達成。
100以上の言語と方言をサポートし、多言語指示追従と翻訳において強力な能力を発揮。

モデル概要

Qwen3-4Bには以下の特徴があります:

タイプ: 因果言語モデル
トレーニング段階: 事前学習 & 事後学習
パラメータ数: 4.0B
パラメータ数（埋め込み層を除く）: 3.6B
レイヤー数: 36
アテンションヘッド数（GQA）: Q用32、KV用8
コンテキスト長: ネイティブで32,768、YaRNを使用すると131,072トークン

詳細なベンチマーク評価、ハードウェア要件、推論パフォーマンスについては、ブログ、GitHub、ドキュメントを参照してください。

[!TIP] 著しい無限繰り返しが発生した場合は、ベストプラクティスセクションを参照して最適なサンプリングパラメータを設定し、presence_penaltyを1.5に設定してください。

クイックスタート

Qwen3のコードは最新のHugging Face transformersに含まれており、transformersの最新バージョンを使用することを推奨します。

transformers<4.51.0を使用すると、以下のエラーが発生します:

KeyError: 'qwen3'

以下のコードスニペットは、与えられた入力に基づいてモデルがコンテンツを生成する方法を示しています。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-4B"

# トークナイザーとモデルをロード
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# モデル入力を準備
prompt = "大規模言語モデルについて簡単に紹介してください。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 思考モードと非思考モードを切り替え。デフォルトはTrue。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# テキスト補完を実行
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 思考内容を解析
try:
    # 151668 (</think>)を逆方向から検索
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思考内容:", thinking_content)
print("コンテンツ:", content)

デプロイには、sglang>=0.4.6.post1またはvllm>=0.8.5を使用してOpenAI互換のAPIエンドポイントを作成できます:

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-4B --reasoning-parser qwen3

vLLM:

vllm serve Qwen/Qwen3-4B --enable-reasoning --reasoning-parser deepseek_r1

ローカル使用には、Ollama、LMStudio、MLX-LM、llama.cpp、KTransformersなどもQwen3をサポートしています。

思考モードと非思考モードの切り替え

[!TIP] enable_thinkingスイッチは、SGLangとvLLMで作成されたAPIでも利用可能です。 SGLangとvLLMユーザー向けのドキュメントを参照してください。

`enable_thinking=True`

デフォルトでは、Qwen3は思考能力が有効になっており、QwQ-32Bと同様です。これはモデルが生成する応答の品質を向上させるために推論能力を使用することを意味します。例えば、enable_thinking=Trueを明示的に設定するか、tokenizer.apply_chat_templateでデフォルト値のままにすると、モデルは思考モードになります。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinkingのデフォルト値はTrue
)

このモードでは、モデルは<think>...</think>ブロックで囲まれた思考内容を生成し、その後に最終的な応答が続きます。

[!NOTE] 思考モードでは、Temperature=0.6、TopP=0.95、TopK=20、MinP=0（generation_config.jsonのデフォルト設定）を使用してください。貪欲デコードを使用しないでください、パフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

`enable_thinking=False`

モデルの思考動作を厳密に無効にするハードスイッチを提供し、以前のQwen2.5-Instructモデルと同様の機能に揃えます。このモードは、効率を向上させるために思考を無効にすることが不可欠なシナリオで特に有用です。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # enable_thinking=Falseを設定すると思考モードが無効になります
)

このモードでは、モデルは思考内容を生成せず、<think>...</think>ブロックを含みません。

[!NOTE] 非思考モードでは、Temperature=0.7、TopP=0.8、TopK=20、MinP=0を使用することをお勧めします。詳細なガイダンスについては、ベストプラクティスセクションを参照してください。

高度な使用法: ユーザー入力による思考モードと非思考モードの切り替え

enable_thinking=Trueの場合、ユーザーがモデルの動作を動的に制御できるソフトスイッチメカニズムを提供します。具体的には、ユーザープロンプトやシステムメッセージに/thinkと/no_thinkを追加することで、ターンごとにモデルの思考モードを切り替えることができます。モデルはマルチターン会話で最新の指示に従います。

以下はマルチターン会話の例です:

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-4B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 履歴を更新
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 使用例
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 最初の入力（/thinkまたは/no_thinkタグなし、デフォルトで思考モードが有効）
    user_input_1 = "いちごには'r'がいくつありますか？"
    print(f"ユーザー: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"ボット: {response_1}")
    print("----------------------")

    # /no_thinkを含む2番目の入力
    user_input_2 = "では、ブルーベリーには'r'がいくつありますか？ /no_think"
    print(f"ユーザー: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"ボット: {response_2}") 
    print("----------------------")

    # /thinkを含む3番目の入力
    user_input_3 = "本当ですか？ /think"
    print(f"ユーザー: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"ボット: {response_3}")

[!NOTE] API互換性のため、enable_thinking=Trueの場合、ユーザーが/thinkまたは/no_thinkを使用するかどうかに関係なく、モデルは常に<think>...</think>で囲まれたブロックを出力します。ただし、思考が無効になっている場合、このブロック内のコンテンツは空になることがあります。 enable_thinking=Falseの場合、ソフトスイッチは無効です。ユーザーが入力した/thinkまたは/no_thinkタグに関係なく、モデルは思考内容を生成せず、<think>...</think>ブロックを含みません。

エージェント的使用

Qwen3はツール呼び出し能力に優れています。Qwen-Agentを使用して、Qwen3のエージェント能力を最大限に活用することをお勧めします。Qwen-Agentはツール呼び出しテンプレートとツール呼び出しパーサーを内部にカプセル化しており、コーディングの複雑さを大幅に軽減します。

使用可能なツールを定義するには、MCP設定ファイルを使用するか、Qwen-Agentの統合ツールを使用するか、自分で他のツールを統合できます。

from qwen_agent.agents import Assistant

# LLMを定義
llm_cfg = {
    'model': 'Qwen3-4B',

    # Alibaba Model Studioが提供するエンドポイントを使用:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # OpenAI API互換のカスタムエンドポイントを使用:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # その他のパラメータ:
    # 'generate_cfg': {
    #         # 追加: 応答内容が`<think>これは思考です</think>これは答えです`の場合;
    #         # 追加しない: 応答がreasoning_contentとcontentで分離されている場合。
    #         'thought_in_content': True,
    #     },
}

# ツールを定義
tools = [
    {'mcpServers': {  # MCP設定ファイルを指定可能
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 組み込みツール
]

# エージェントを定義
bot = Assistant(llm=llm_cfg, function_list=tools)

# ストリーミング生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Qwenの最新動向を紹介してください'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

長文テキストの処理

Qwen3はネイティブで32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話では、RoPEスケーリング技術を使用して長文テキストを効果的に処理することをお勧めします。YaRNメソッドを使用して、131,072トークンのコンテキスト長でモデルの性能を検証しました。

YaRNは現在、transformersやllama.cpp（ローカル使用）、vllmやsglang（デプロイ）など、いくつかの推論フレームワークでサポートされています。一般的に、サポートされているフレームワークでYaRNを有効にするには2つのアプローチがあります:

モデルファイルを変更: config.jsonファイルにrope_scalingフィールドを追加:

{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

llama.cppでは、変更後にGGUFファイルを再生成する必要があります。

コマンドライン引数を渡す:

vllmでは以下を使用:

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

sglangでは以下を使用:

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

llama.cppのllama-serverでは以下を使用:

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

[!IMPORTANT] 以下の警告が表示された場合:
`rope_scaling`内の未認識キー 'rope_type'='yarn': {'original_max_position_embeddings'}
transformers>=4.51.0にアップグレードしてください。

[!NOTE] すべての注目すべきオープンソースフレームワークは静的YaRNを実装しており、入力長に関係なくスケーリング係数が一定であるため、短いテキストでのパフォーマンスに影響を与える可能性があります。 長いコンテキストの処理が必要な場合にのみrope_scaling設定を追加することをお勧めします。また、必要に応じてfactorを変更することをお勧めします。例えば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factorを2.0に設定する方が良いでしょう。

[!NOTE] config.jsonのデフォルトのmax_position_embeddingsは40,960に設定されています。この割り当てには、出力用に32,768トークン、典型的なプロンプト用に8,192トークンが予約されており、短いテキスト処理を含むほとんどのシナリオに十分です。平均コンテキスト長が32,768トークンを超えない場合、このシナリオでYaRNを有効にすることをお勧めしません、モデルのパフォーマンスが低下する可能性があります。

[!TIP] Alibaba Model Studioが提供するエンドポイントはデフォルトで動的YaRNをサポートしており、追加の設定は不要です。

ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定を推奨します:

サンプリングパラメータ:
- 思考モード（enable_thinking=True）では、Temperature=0.6、TopP=0.95、TopK=20、MinP=0を使用。貪欲デコードを使用しないでください、パフォーマンスの低下や無限の繰り返しを引き起こす可能性があります。
- 非思考モード（enable_thinking=False）では、Temperature=0.7、TopP=0.8、TopK=20、MinP=0を使用することをお勧めします。
- サポートされているフレームワークでは、presence_penaltyパラメータを0から2の間で調整して無限の繰り返しを減らせます。ただし、高い値を使用すると、時折言語の混在やモデルパフォーマンスのわずかな低下が発生する可能性があります。
十分な出力長: ほとんどのクエリに対して32,768トークンの出力長を使用することを推奨します。数学やプログラミングコンテストのような高度に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをお勧めします。これにより、モデルが詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力フォーマットの標準化: ベンチマーク時にモデルの出力を標準化するためにプロンプトを使用することを推奨します。
- 数学の問題: プロンプトに「段階的に推論し、最終的な答えを\boxed{}内に記述してください。」を含めます。
- 多肢選択問題: 応答を標準化するために、プロンプトに以下のJSON構造を追加します: 「"answer": "C"のように、answerフィールドに選択肢の文字のみを表示してください。」
履歴に思考内容を含めない: マルチターン会話では、履歴のモデル出力には最終的な出力部分のみを含め、思考内容を含める必要はありません。これはJinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークでは、開発者がベストプラクティスに従うことを確認する必要があります。

引用

私たちの仕事が役に立った場合は、ぜひ引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}