Qwen3-8B-Baseオープンソース大規模言語モデル - 119の言語をサポートし、無料で多言語交換体験をお楽しみいただけます

ホーム

Qwen3 8B Base

Qwenによって開発

Qwen3は通義千問シリーズの最新世代大規模言語モデルで、完全な密モデルと混合専門家（MoE）モデル体系を提供し、119言語の36兆トークンの事前学習データをカバーしています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語大規模モデル #32k長文理解 #STEM推論強化

ダウンロード数 26.79k

リリース時間 : 4/28/2025

モデル概要

Qwen3-8B-Baseは82億パラメータの因果的言語モデルで、汎用言語モデリングと専門能力強化に焦点を当て、32kの超長文脈理解をサポートします。

モデル特徴

多言語カバレッジ

119言語の36兆トークンの事前学習データをカバーし、言語カバレッジは前世代の3倍に達しています

専門能力強化

3段階の事前学習戦略によりSTEM/プログラミング/論理的推論などの専門能力を強化

長文理解

32kの超長文脈処理をサポートし、長文理解能力を最適化

訓練技術革新

MoEグローバルバッチ負荷分散損失関数、全モデルqk層正規化などの革新的技術を採用

モデル能力

多言語テキスト生成

プログラミングコード生成

論理的推論

長文理解

STEM問題解答

使用事例

自然言語処理

多言語テキスト生成

複数言語の一貫性のあるテキストコンテンツを生成

119言語の流暢な生成をサポート

技術文書処理

長文の技術文書を解析・理解

32k文脈ウィンドウで完全な文書分析をサポート

プログラミング支援

コード生成と補完

自然言語記述に基づいてプログラミングコードを生成

最適化されたプログラミング専門能力により、より正確なコード出力を提供

🚀 Qwen3-8B-Base

Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。トレーニングデータ、モデルアーキテクチャ、最適化技術の大幅な進歩を基に、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

✨ 主な機能

Qwen3の特長

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。トレーニングデータ、モデルアーキテクチャ、最適化技術の大幅な進歩を基に、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

高品質な事前学習コーパスの拡充：Qwen3は119言語にわたる36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大しています。コーディング、STEM、推論、書籍、多言語、合成データなど、非常に豊富な高品質データが含まれています。
トレーニング技術とモデルアーキテクチャ：Qwen3は一連のトレーニング技術とアーキテクチャの改良を取り入れており、MoEモデルのグローバルバッチ負荷均衡損失や、すべてのモデルに適用されるqkレイヤー正規化などがあり、安定性と全体的なパフォーマンスが向上しています。
三段階の事前学習：第1段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階はSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階はトレーニングシーケンス長を最大32kトークンまで拡張することで、長文脈の理解を強化しています。
スケーリング則に基づくハイパーパラメータチューニング：三段階の事前学習パイプライン全体で包括的なスケーリング則研究を通じて、Qwen3は高密度モデルとMoEモデルそれぞれについて、学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを体系的に調整しており、異なるモデル規模でのトレーニングダイナミクスと最終的なパフォーマンスが向上しています。

モデルの概要

Qwen3-8B-Base は以下の特徴を持っています。

プロパティ	詳細
モデルタイプ	Causal Language Models
トレーニング段階	Pretraining
パラメータ数	82億
パラメータ数 (非埋め込み)	69.5億
レイヤー数	36
アテンションヘッド数 (GQA)	Q: 32、KV: 8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、ドキュメントを参照してください。

📦 インストール

Qwen3のコードは最新のHugging Face transformers に含まれており、最新バージョンの transformers を使用することをお勧めします。

transformers<4.51.0 を使用すると、以下のエラーが発生します。

KeyError: 'qwen3'

📚 ドキュメント

評価とパフォーマンス

詳細な評価結果はこのブログに報告されています。

引用

もし当社の成果が役に立った場合は、ぜひ引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}