🚀 Qwen3-8B-GGUF
Qwen3-8B-GGUFは、Qwenシリーズの最新の大規模言語モデルで、多様なシナリオでの高性能を実現します。論理推論、指示追従、エージェント機能、多言語サポートなど、幅広い機能を備えています。
✨ 主な機能
Qwen3の特長
Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合(MoE)モデルを提供します。広範なトレーニングを通じて、推論能力、指示追従能力、エージェント機能、多言語サポートなどで画期的な進歩を遂げており、以下の主要な特徴があります。
- 単一モデル内での思考モード(複雑な論理推論、数学、コーディング用)と非思考モード(効率的な汎用対話用)のシームレスな切り替えをサポートし、様々なシナリオで最適なパフォーマンスを発揮します。
- 推論能力が大幅に向上し、数学、コード生成、一般常識の論理推論において、以前のQwQ(思考モード)およびQwen2.5指示モデル(非思考モード)を上回っています。
- 人間の嗜好に高度にアライメントされており、創作的な文章作成、ロールプレイ、多ターン対話、指示追従などで優れたパフォーマンスを発揮し、より自然で魅力的な対話体験を提供します。
- エージェント機能に特化しており、思考モードと非思考モードの両方で外部ツールとの精密な統合を可能にし、複雑なエージェントベースのタスクでオープンソースモデルの中でトップクラスのパフォーマンスを達成します。
- 100以上の言語と方言をサポートし、多言語指示追従と翻訳に強力な能力を持っています。
📚 ドキュメント
モデル概要
Qwen3-8B は以下の特徴を持っています。
属性 |
详情 |
モデルタイプ |
因果言語モデル |
トレーニング段階 |
事前学習と事後学習 |
パラメータ数 |
82億 |
パラメータ数(非埋め込み) |
69.5億 |
レイヤー数 |
36 |
アテンションヘッド数(GQA) |
Qは32、KVは8 |
コンテキスト長 |
ネイティブで32,768トークン、YaRNを使用して131,072トークン |
量子化 |
q4_K_M、q5_0、q5_K_M、q6_K、q8_0 |
ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。
🚀 クイックスタート
llama.cpp
詳細な使用ガイドについては、llama.cppのドキュメントを参照してください。
llama.cpp
をクローンし、公式ガイドに従ってインストールすることをお勧めします。最新バージョンのllama.cppに対応しています。以下のデモでは、llama.cpp
リポジトリの下でコマンドを実行することを前提としています。
./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift
ollama
詳細な使用ガイドについては、ollamaのドキュメントを参照してください。
次の1つのコマンドでQwen3を実行できます。
ollama run hf.co/Qwen/Qwen3-8B-GGUF:Q8_0
💻 使用例
思考モードと非思考モードの切り替え
ユーザーのプロンプトまたはシステムメッセージに/think
と/no_think
を追加することで、モデルの思考モードをターンごとに切り替えることができます。モデルは多ターン対話で最新の指示に従います。
以下は多ターン対話の例です。
> Who are you /no_think
<think>
</think>
I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]
> How many 'r's are in 'strawberries'? /think
<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>
The word strawberries contains 3 instances of the letter r. [...]
長文処理
Qwen3はネイティブで最大32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話の場合、RoPEスケーリング技術を使用して長文を効果的に処理することをお勧めします。YaRN手法を使用して最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しています。
llama.cpp
でYARNを有効にするには、次のコマンドを実行します。
./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
⚠️ 重要提示
すべての著名なオープンソースフレームワークは静的なYaRNを実装しており、これはスケーリング係数が入力長に関係なく一定であることを意味し、短いテキストでのパフォーマンスに影響を与える可能性があります。長いコンテキストを処理する必要がある場合のみ、rope_scaling
設定を追加することをお勧めします。また、必要に応じてfactor
を変更することもお勧めします。たとえば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factor
を2.0に設定するとよいでしょう。
💡 使用建议
アリババモデルスタジオが提供するエンドポイントはデフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。
🔧 技術詳細
ベストプラクティス
最適なパフォーマンスを達成するために、以下の設定をお勧めします。
-
サンプリングパラメータ
- 思考モード (
enable_thinking=True
) の場合、Temperature=0.6
、TopP=0.95
、TopK=20
、MinP=0
、PresencePenalty=1.5
を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しにつながる可能性があります。
- 非思考モード (
enable_thinking=False
) の場合、Temperature=0.7
、TopP=0.8
、TopK=20
、MinP=0
、PresencePenalty=1.5
を使用することをお勧めします。
- 量子化モデルの場合、繰り返し出力を抑制するために
presence_penalty
を1.5に設定することをお勧めします。presence_penalty
パラメータは0から2の間で調整できます。値が高いと、時々言語の混合やモデルパフォーマンスのわずかな低下が発生する可能性があります。
-
十分な出力長
ほとんどのクエリで32,768トークンの出力長を使用することをお勧めします。数学やプログラミングコンテストなどの非常に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをお勧めします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
-
出力形式の標準化
ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをお勧めします。
- 数学問題:プロンプトに「Please reason step by step, and put your final answer within \boxed{}.」を含めます。
- 選択問題:応答を標準化するために、プロンプトに次のJSON構造を追加します。「Please show your choice in the
answer
field with only the choice letter, e.g., "answer": "C"
」
-
履歴に思考内容を含めない
多ターン対話では、過去のモデル出力には最終出力部分のみを含め、思考内容を含める必要はありません。これはJinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークの場合、開発者がこのベストプラクティスを遵守するようにする必要があります。
引用
このモデルが役に立った場合は、以下のように引用してください。
@misc{qwen3,
title = {Qwen3},
url = {https://qwenlm.github.io/blog/qwen3/},
author = {Qwen Team},
month = {April},
year = {2025}
}
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。