Qwen3-4B-Baseオープンソース大規模言語モデル - 多言語対話で32kのコンテキスト長をサポート

ホーム

Qwen3 4B Base

Qwenによって開発

Qwen3-4B-Baseは通義千問シリーズ最新世代の40億パラメータ大規模言語モデルで、36兆トークンの多言語データで事前学習され、32kのコンテキスト長をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語サポート #長文理解 #STEM推論

ダウンロード数 50.84k

リリース時間 : 4/28/2025

モデル概要

Qwen3-4B-Baseは因果言語モデルで、汎用的な言語理解と生成タスクに特化しており、テキスト生成やコード補完など様々なシナリオに適用可能です。

モデル特徴

大規模多言語事前学習

36兆トークンの119言語データで事前学習され、言語カバレッジは前世代の3倍に達します

3段階トレーニング最適化

汎用言語モデリング→専門能力強化→長文脈トレーニングの3段階事前学習パラダイムを採用

長文脈サポート

32kトークンの超長文脈処理能力をサポート

効率的な注意メカニズム

グループ化クエリ注意(GQA)アーキテクチャを採用し、クエリヘッド32グループ/キーバリューヘッド8グループ構成

モデル能力

テキスト生成

多言語理解

コード補完

論理的推論

長文処理

使用事例

自然言語処理

多言語テキスト生成

複数言語の一貫性のあるテキストコンテンツを生成

119言語の流暢な生成をサポート

技術文書処理

STEM分野の技術文書やコードを処理

コードとSTEM分野データに対して特別な最適化を実施

開発支援

コード補完

プログラマーのコード作成と補完を支援

事前学習データにおけるコード関連データの比率を向上

🚀 Qwen3-4B-Base

Qwen3-4B-Baseは、Qwenシリーズの最新世代の大規模言語モデルです。Qwen3は、高密度モデルとエキスパート混合（MoE）モデルを提供し、トレーニングデータ、モデルアーキテクチャ、最適化手法などの面で大幅な進歩を遂げています。

✨ 主な機能

Qwen3は、Qwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。トレーニングデータ、モデルアーキテクチャ、最適化手法の広範な進歩に基づいて、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

高品質な事前学習コーパスの拡充：Qwen3は、119言語にまたがる36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大しています。コーディング、STEM、推論、書籍、多言語、合成データなど、非常に豊富な高品質データが含まれています。
トレーニング手法とモデルアーキテクチャ：Qwen3は、一連のトレーニング手法とアーキテクチャの改良を組み込んでいます。MoEモデルのグローバルバッチ負荷均衡損失や、すべてのモデルに対するqkレイヤー正規化などがあり、安定性と全体的なパフォーマンスの向上につながっています。
三段階の事前学習：第1段階では、幅広い言語モデリングと一般知識の獲得に焦点を当て、第2段階では、STEM、コーディング、論理推論などの推論スキルを向上させ、第3段階では、トレーニングシーケンス長を最大32kトークンまで拡張することで、長文脈の理解を強化しています。
スケーリング則に基づくハイパーパラメータチューニング：三段階の事前学習パイプライン全体で包括的なスケーリング則の研究を通じて、Qwen3は高密度モデルとMoEモデルそれぞれに対して、学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを体系的に調整しています。これにより、異なるモデルスケールでのトレーニングダイナミクスと最終的なパフォーマンスが向上しています。

📚 ドキュメント

モデル概要

Qwen3-4B-Base は以下の特徴を持っています。

属性	详情
モデルタイプ	Causal Language Models
トレーニング段階	Pretraining
パラメータ数	4.0B
パラメータ数 (非埋め込み)	3.6B
レイヤー数	36
アテンションヘッド数 (GQA)	Q: 32、KV: 8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、ドキュメントを参照してください。

必要条件

Qwen3のコードは最新のHugging Face transformers に含まれており、最新バージョンの transformers を使用することをお勧めします。

transformers<4.51.0 を使用すると、以下のエラーが発生します。

KeyError: 'qwen3'

評価とパフォーマンス

詳細な評価結果は、このブログに報告されています。

引用

もし私たちの研究が役に立った場合は、ぜひ引用してください。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}