Qwen - 3 - 14B - Dramaオープンソース大規模言語モデル - 様々なアプリケーションニーズを満たす多様なモデルを提供

ホーム

Qwen 3 14b Drama

float-tripによって開発

Qwen3-14B-Baseは通義シリーズの最新世代の大規模言語モデルで、一連の包括的な密集モデルとエキスパート混合（MoE）モデルを提供し、学習データ、モデルアーキテクチャ、最適化技術などの面で著しい進歩を遂げています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語大規模言語モデル #32K長テキスト理解 #三段階事前学習

ダウンロード数 167

リリース時間 : 7/14/2025

モデル概要

Qwen3-14B-Baseは事前学習された因果言語モデルで、強力な言語処理能力を持ち、複数の言語とタスクをサポートします。

モデル特徴

拡張された高品質事前学習コーパス

119種類の言語の36兆個のトークンで事前学習されており、言語のカバー範囲はQwen2.5の3倍で、より豊富な高品質データを含んでいます。

学習技術とモデルアーキテクチャの改善

グローバルバッチ負荷均衡損失とqk層正規化などの技術を採用し、安定性と全体的なパフォーマンスを向上させました。

三段階事前学習

第一段階は言語モデリングと一般知識の獲得に重点を置き、第二段階は推論能力を向上させ、第三段階は長文脈理解能力を強化します。

スケーリング則に基づく超パラメータ調整

包括的なスケーリング則の研究を通じて、重要な超パラメータをシステム的に調整し、より良い学習ダイナミクスと最終的なパフォーマンスを実現します。

モデル能力

テキスト生成

言語モデリング

論理推論

長文脈理解

多言語サポート

使用事例

自然言語処理

テキスト生成

高品質で首尾一貫したテキストコンテンツを生成します。

コンテンツ作成、自動要約などに利用できます。

論理推論

複雑な論理と数学の問題を解きます。

STEM分野のアプリケーションに適しています。

多言語アプリケーション

多言語翻訳

複数の言語間の翻訳タスクをサポートします。

グローバル化アプリケーションに利用できます。

🚀 Qwen3-14B-Base

Qwen3-14B-Baseは、Qwenシリーズの最新世代の大規模言語モデルです。広範な訓練データ、革新的なモデルアーキテクチャ、高度な最適化手法を駆使し、卓越した性能を発揮します。

🚀 クイックスタート

Qwen3のコードは最新のHugging Face transformers に含まれています。最新バージョンの transformers を使用することをおすすめします。

transformers<4.51.0 を使用すると、以下のエラーが発生する場合があります。

KeyError: 'qwen3'

✨ 主な機能

Qwen3の特長

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度およびエキスパート混合（MoE）モデルの包括的なセットを提供します。訓練データ、モデルアーキテクチャ、最適化手法の大規模な進歩に基づき、Qwen3は以前にリリースされたQwen2.5に比べて以下の重要な改善を実現しています。

拡張された高品質事前学習コーパス：Qwen3は119言語にわたる36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大しています。コーディング、STEM、推論、書籍、多言語、合成データなど、非常に豊富な高品質データのミックスが含まれています。
訓練手法とモデルアーキテクチャ：Qwen3は一連の訓練手法とアーキテクチャの改良を組み込んでおり、MoEモデルのグローバルバッチ負荷均衡損失やすべてのモデルのqkレイヤー正規化などがあり、安定性と全体的なパフォーマンスの向上につながっています。
三段階事前学習：第1段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階はSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階は訓練シーケンス長を最大32kトークンまで拡張することで長文脈理解を強化しています。
スケーリング則に基づくハイパーパラメータチューニング：三段階事前学習パイプライン全体での包括的なスケーリング則研究を通じて、Qwen3は高密度およびMoEモデルそれぞれに対して学習率スケジューラーやバッチサイズなどの重要なハイパーパラメータを体系的にチューニングし、異なるモデル規模でのトレーニングダイナミクスと最終的なパフォーマンスを向上させています。

📚 ドキュメント

モデル概要

Qwen3-14B-Base は以下の特徴を持っています。

属性	詳情
モデルタイプ	因果言語モデル
訓練段階	事前学習
パラメータ数	148億
パラメータ数（非埋め込み）	132億
レイヤー数	40
アテンションヘッド数（GQA）	Qは40、KVは8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論性能などの詳細については、ブログ、GitHub、ドキュメントを参照してください。

評価とパフォーマンス

詳細な評価結果はこの 📑 ブログに報告されています。

引用

もし当社の成果が役に立った場合は、ぜひ引用してください。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}