Qwen3 - 30B - A3B - Baseオープンソース大規模言語モデル - 無料で強力な言語対話処理を支援

Home

Qwen3 30B A3B Base

Developed by unsloth

Qwen3-30B-A3B-BaseはQwenシリーズの最新世代の大規模言語モデルで、学習データ、モデルアーキテクチャ、最適化技術などの面で多くの改善があり、より強力な言語処理能力を提供します。

大規模言語モデル

Transformers

Open Source License:Apache-2.0 #超長文脈理解 #多言語混合エキスパート #三ステージ事前学習

Downloads 1,822

Release Time : 4/28/2025

Model Overview

Qwen3-30B-A3B-Baseは混合エキスパート（MoE）アーキテクチャに基づく因果言語モデルで、さまざまな自然言語処理シーンに適しています。

Model Features

拡張された高品質事前学習コーパス

119種類の言語の36兆個のトークンで事前学習を行い、言語のカバー範囲はQwen2.5の3倍で、より豊富な高品質データを含んでいます。

学習技術とモデルアーキテクチャの改善

グローバルバッチ負荷平衡損失とqk層正規化を採用し、安定性と全体的なパフォーマンスを向上させました。

三ステージ事前学習

第1段階は言語モデリングと一般的な知識の獲得に焦点を当て；第2段階は推論能力を向上させ；第3段階は長文脈理解能力を強化します。

スケーリング則に基づくハイパーパラメータ調整

三ステージ事前学習プロセスに対して全面的なスケーリング則の研究を行い、重要なハイパーパラメータをシステム的に調整し、より良い学習ダイナミクスと最終的なパフォーマンスを実現します。

Model Capabilities

テキスト生成

言語理解

論理推論

多言語処理

長文脈理解

Use Cases

自然言語処理

テキスト生成

高品質で首尾一貫したテキスト内容を生成します。

論理推論

STEMやコーディング問題などの複雑な論理推論問題を解決します。

多言語処理

複数の言語のテキスト内容を処理します。

🚀 Qwen3-30B-A3B-Base

Qwen3-30B-A3B-BaseはQwenシリーズの最新世代の大規模言語モデルで、学習データ、モデルアーキテクチャ、最適化技術などの面で多くの改良が加えられています。このモデルは、ユーザーにより強力な言語処理能力を提供し、様々な自然言語処理シーンに適用可能です。

🚀 クイックスタート

Qwen3-MoEのコードは最新のHugging Face transformers ライブラリに統合されているため、最新バージョンの transformers の使用をおすすめします。

transformers<4.51.0 バージョンを使用すると、以下のエラーが発生します：

KeyError: 'qwen3_moe'

✨ 主な機能

Qwen3の特徴

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、包括的な密集モデルと混合専門家（MoE）モデルのセットを提供します。学習データ、モデルアーキテクチャ、最適化技術の幅広い改良に基づき、以前にリリースされたQwen2.5と比較して、Qwen3には以下の主要な改良があります：

拡張された高品質事前学習コーパス：Qwen3は119種類の言語の36兆個のトークンで事前学習されており、言語のカバー範囲はQwen2.5の3倍で、コーディング、STEM、推論、書籍、多言語、合成データなど、より豊富な高品質データが含まれています。
学習技術とモデルアーキテクチャ：Qwen3は一連の学習技術とアーキテクチャの改良を採用しており、MoEモデル用のグローバルバッチ負荷均衡損失や、すべてのモデルに適用されるqk層正規化などがあり、これにより安定性と全体的な性能が向上しています。
三阶段事前学習：第1段階は広範な言語モデリングと一般的な知識の取得に焦点を当てています；第2段階はSTEM、コーディング、論理推論などの推論能力を向上させます；第3段階は学習シーケンス長を32kトークンに拡張することで、長文脈理解能力を強化します。
スケーリング則に基づく超パラメータ調整：三阶段事前学習プロセスに対する全面的なスケーリング則の研究を通じて、Qwen3は密集モデルとMoEモデルの主要な超パラメータ（学習率スケジューラやバッチサイズなど）をそれぞれ系統的に調整し、異なるモデル規模でより良い学習ダイナミクスと最終性能を実現しています。

モデル概要

Qwen3-30B-A3B-Base は以下の特徴を持ちます：

属性	詳細
モデルタイプ	因果言語モデル
学習段階	事前学習
総パラメータ数	305億、活性化パラメータ33億
非埋め込みパラメータ数	299億
層数	48
注意力ヘッド数（GQA）	Qは32、KVは4
専門家数	128
活性化専門家数	8
コンテキスト長	32768

より詳細な情報（ベンチマーク評価、ハードウェア要件、推論性能など）については、ブログ、GitHub、ドキュメントを参照してください。

📚 ドキュメント

評価と性能

詳細な評価結果については、📑 ブログを参照してください。

引用

このプロジェクトが役に立った場合は、以下を引用してください：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}