Qwen3-8B-GGUFオープンソース大規模言語モデル - 無料でのデプロイで推論、多言語などの機能で突破を達成

Qwen3 8B GGUF

Qwenによって開発

Qwen3は通義千問シリーズの大規模言語モデルの最新バージョンで、密モデルと混合専門家（MoE）モデルの完全なスイートを提供します。大規模なトレーニングに基づき、Qwen3は推論能力、命令追従、エージェント機能、および多言語サポートにおいて画期的な進歩を実現しました。

大規模言語モデルオープンソースライセンス:Apache-2.0 #思考モード切り替え #超長文コンテキストサポート #多言語インテリジェントエージェント

ダウンロード数 4,474

リリース時間 : 5/3/2025

モデル概要

Qwen3-8B-GGUFは通義千問シリーズの大規模言語モデルで、思考モードと非思考モードの自由な切り替えをサポートし、強力な推論能力、多言語サポート、およびエージェント機能を備えています。

モデル特徴

思考モードのシームレスな切り替え

単一モデル内で思考モード（複雑な論理推論/数学演算/コード生成）と非思考モード（効率的な汎用対話）を自由に切り替え、あらゆるシナリオで最適なパフォーマンスを確保します。

推論能力の大幅な向上

数学、コード生成、常識的論理推論タスクにおいて、思考モードは前世代のQwQモデルを超え、非思考モードはQwen2.5命令モデルよりも優れています。

卓越した人間の嗜好への適合

創造的な文章作成、ロールプレイ、マルチターン対話、および命令追従において優れたパフォーマンスを発揮し、より自然で没入感のある対話体験を提供します。

プロフェッショナルレベルのエージェント能力

思考/非思考モードのいずれでも外部ツールに正確に接続し、オープンソースモデルの複雑なエージェントタスクでリードを維持します。

多言語サポート

100以上の言語と方言をサポートし、強力な多言語命令追従と翻訳能力を備えています。

モデル能力

テキスト生成

複雑な論理推論

数学演算

コード生成

マルチターン対話

命令追従

多言語翻訳

エージェント機能

使用事例

教育と研究

数学問題の解答

複雑な数学問題を解決し、段階的な推論プロセスを提供します。

数学推論タスクで優れたパフォーマンスを発揮します。

プログラミングコンテスト

プログラミングコンテストに適した効率的なコードソリューションを生成します。

コード生成タスクで優れたパフォーマンスを発揮します。

創造的な文章作成

創造的なストーリー生成

創造性に富んだストーリーやプロットを生成します。

自然で没入感のある創造的な文章作成体験を提供します。

ロールプレイ

さまざまなキャラクターの対話や行動をシミュレートします。

ロールプレイタスクで優れたパフォーマンスを発揮します。

ビジネスアプリケーション

多言語カスタマーサービス

多言語でのカスタマーサービス対話をサポートします。

多言語命令追従タスクで優れたパフォーマンスを発揮します。

エージェントタスク

外部ツールに正確に接続し、複雑なタスクを完了します。

エージェントタスクでリードを維持します。

🚀 Qwen3-8B-GGUF

Qwen3-8B-GGUFは、Qwenシリーズの最新の大規模言語モデルで、多様なシナリオでの高性能を実現します。論理推論、指示追従、エージェント機能、多言語サポートなど、幅広い機能を備えています。

✨ 主な機能

Qwen3の特長

Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルを提供します。広範なトレーニングを通じて、推論能力、指示追従能力、エージェント機能、多言語サポートなどで画期的な進歩を遂げており、以下の主要な特徴があります。

単一モデル内での思考モード（複雑な論理推論、数学、コーディング用）と非思考モード（効率的な汎用対話用）のシームレスな切り替えをサポートし、様々なシナリオで最適なパフォーマンスを発揮します。
推論能力が大幅に向上し、数学、コード生成、一般常識の論理推論において、以前のQwQ（思考モード）およびQwen2.5指示モデル（非思考モード）を上回っています。
人間の嗜好に高度にアライメントされており、創作的な文章作成、ロールプレイ、多ターン対話、指示追従などで優れたパフォーマンスを発揮し、より自然で魅力的な対話体験を提供します。
エージェント機能に特化しており、思考モードと非思考モードの両方で外部ツールとの精密な統合を可能にし、複雑なエージェントベースのタスクでオープンソースモデルの中でトップクラスのパフォーマンスを達成します。
100以上の言語と方言をサポートし、多言語指示追従と翻訳に強力な能力を持っています。

📚 ドキュメント

モデル概要

Qwen3-8B は以下の特徴を持っています。

属性	详情
モデルタイプ	因果言語モデル
トレーニング段階	事前学習と事後学習
パラメータ数	82億
パラメータ数（非埋め込み）	69.5億
レイヤー数	36
アテンションヘッド数（GQA）	Qは32、KVは8
コンテキスト長	ネイティブで32,768トークン、YaRNを使用して131,072トークン
量子化	q4_K_M、q5_0、q5_K_M、q6_K、q8_0

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。

🚀 クイックスタート

llama.cpp

詳細な使用ガイドについては、llama.cppのドキュメントを参照してください。

llama.cppをクローンし、公式ガイドに従ってインストールすることをお勧めします。最新バージョンのllama.cppに対応しています。以下のデモでは、llama.cppリポジトリの下でコマンドを実行することを前提としています。

./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift

ollama

詳細な使用ガイドについては、ollamaのドキュメントを参照してください。

次の1つのコマンドでQwen3を実行できます。

ollama run hf.co/Qwen/Qwen3-8B-GGUF:Q8_0

💻 使用例

思考モードと非思考モードの切り替え

ユーザーのプロンプトまたはシステムメッセージに/thinkと/no_thinkを追加することで、モデルの思考モードをターンごとに切り替えることができます。モデルは多ターン対話で最新の指示に従います。

以下は多ターン対話の例です。

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

長文処理

Qwen3はネイティブで最大32,768トークンのコンテキスト長をサポートしています。入力と出力の合計長がこの制限を大幅に超える会話の場合、RoPEスケーリング技術を使用して長文を効果的に処理することをお勧めします。YaRN手法を使用して最大131,072トークンのコンテキスト長でモデルのパフォーマンスを検証しています。

llama.cppでYARNを有効にするには、次のコマンドを実行します。

./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要提示

すべての著名なオープンソースフレームワークは静的なYaRNを実装しており、これはスケーリング係数が入力長に関係なく一定であることを意味し、短いテキストでのパフォーマンスに影響を与える可能性があります。長いコンテキストを処理する必要がある場合のみ、rope_scaling設定を追加することをお勧めします。また、必要に応じてfactorを変更することもお勧めします。たとえば、アプリケーションの典型的なコンテキスト長が65,536トークンの場合、factorを2.0に設定するとよいでしょう。

💡 使用建议

アリババモデルスタジオが提供するエンドポイントはデフォルトで動的なYaRNをサポートしており、追加の設定は必要ありません。

🔧 技術詳細

ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定をお勧めします。

サンプリングパラメータ
- 思考モード (enable_thinking=True) の場合、Temperature=0.6、TopP=0.95、TopK=20、MinP=0、PresencePenalty=1.5 を使用します。貪欲なデコーディングは使用しないでください。これはパフォーマンスの低下や無限の繰り返しにつながる可能性があります。
- 非思考モード (enable_thinking=False) の場合、Temperature=0.7、TopP=0.8、TopK=20、MinP=0、PresencePenalty=1.5 を使用することをお勧めします。
- 量子化モデルの場合、繰り返し出力を抑制するために presence_penalty を1.5に設定することをお勧めします。presence_penalty パラメータは0から2の間で調整できます。値が高いと、時々言語の混合やモデルパフォーマンスのわずかな低下が発生する可能性があります。
十分な出力長 ほとんどのクエリで32,768トークンの出力長を使用することをお勧めします。数学やプログラミングコンテストなどの非常に複雑な問題のベンチマークでは、最大出力長を38,912トークンに設定することをお勧めします。これにより、モデルに詳細で包括的な応答を生成するための十分なスペースが提供され、全体的なパフォーマンスが向上します。
出力形式の標準化 ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをお勧めします。
- 数学問題：プロンプトに「Please reason step by step, and put your final answer within \boxed{}.」を含めます。
- 選択問題：応答を標準化するために、プロンプトに次のJSON構造を追加します。「Please show your choice in the answer field with only the choice letter, e.g., "answer": "C"」
履歴に思考内容を含めない 多ターン対話では、過去のモデル出力には最終出力部分のみを含め、思考内容を含める必要はありません。これはJinja2で提供されるチャットテンプレートで実装されています。ただし、Jinja2チャットテンプレートを直接使用しないフレームワークの場合、開発者がこのベストプラクティスを遵守するようにする必要があります。

引用

このモデルが役に立った場合は、以下のように引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}