Qwen3 - 30B - A3B - Baseオープンソース大規模言語モデル - 119種類の言語と32kの長文コンテキスト対話をサポート

ホーム

Qwen3 30B A3B Base

Qwenによって開発

Qwen3-30B-A3B-Baseは通義千問シリーズ最新世代の30.5Bパラメータ規模の混合エキスパート（MoE）大規模言語モデルで、119言語と32kの文脈長をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #混合エキスパートモデル #多言語理解 #長文脈推論

ダウンロード数 9,745

リリース時間 : 4/28/2025

モデル概要

3段階の事前学習フレームワークに基づいて開発されたMoEアーキテクチャの大規模言語モデルで、汎用言語モデリング、STEM/プログラミング能力の強化、長文脈理解に焦点を当てています。

モデル特徴

多言語カバレッジ

事前学習データは119言語の36兆トークンをカバーし、言語カバレッジは前世代の3倍に達します

MoEアーキテクチャの最適化

グローバルバッチ負荷分散損失とqk層正規化技術を採用し、学習の安定性を向上させます

3段階事前学習

段階的に汎用能力、STEM/プログラミング/推論能力、長文脈理解を強化します

モデル能力

多言語テキスト生成

コード生成と補完

複雑な論理的推論

長文書理解

数学的問題解決

使用事例

開発支援

コード自動補完

複数のプログラミング言語のコード生成とエラー修正をサポート

教育研究

STEM問題解決

数学、物理などの複雑な問題を解答

🚀 Qwen3-30B-A3B-Base

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供しています。学習データ、モデルアーキテクチャ、最適化技術の大幅な進歩に基づき、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

✨ 主な機能

Qwen3のハイライト

Qwen3は、学習データ、モデルアーキテクチャ、最適化技術の大幅な進歩に基づき、以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

高品質な事前学習コーパスの拡充：Qwen3は119言語にまたがる36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大しています。また、コーディング、STEM、推論、書籍、多言語、合成データなど、非常に豊富な高品質データが含まれています。
学習技術とモデルアーキテクチャ：Qwen3には、MoEモデルのグローバルバッチ負荷分散損失や、すべてのモデルに適用されるqkレイヤー正規化など、一連の学習技術とアーキテクチャの改良が組み込まれており、安定性と全体的なパフォーマンスが向上しています。
三段階事前学習：第1段階では広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階ではSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階では学習シーケンス長を最大32kトークンまで拡張することで、長文脈の理解を強化しています。
スケーリング則に基づくハイパーパラメータチューニング：三段階事前学習パイプライン全体で包括的なスケーリング則研究を行うことで、Qwen3は高密度モデルとMoEモデルそれぞれについて、学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを系統的に調整し、異なるモデル規模での学習ダイナミクスと最終的なパフォーマンスを向上させています。

モデル概要

Qwen3 - 30B - A3B - Base は以下の特徴を持っています。

プロパティ	詳細
モデルタイプ	Causal Language Models
学習段階	Pretraining
パラメータ数	合計305億で、33億がアクティブ
パラメータ数 (非埋め込み)	299億
レイヤー数	48
アテンションヘッド数 (GQA)	Qは32、KVは4
エキスパート数	128
アクティブなエキスパート数	8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。

📚 ドキュメント

要件

Qwen3 - MoEのコードは最新のHugging Face transformersに含まれており、最新バージョンのtransformersの使用をお勧めします。

transformers<4.51.0を使用すると、以下のエラーが発生します。

KeyError: 'qwen3_moe'

評価とパフォーマンス

詳細な評価結果は、このブログに報告されています。

引用

もし当社の成果が役に立った場合は、ぜひ引用していただければ幸いです。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}