Qwen3-8B-Baseオープンソース大規模言語モデル - 119種類の言語をサポートし、さまざまな自然言語タスクを無料で処理可能

ホーム

Qwen3 8B Base

unslothによって開発

Qwen3-8B-Baseは通義大規模言語モデルシリーズの最新世代の製品で、82億のパラメータを持ち、119種類の言語をサポートし、様々な自然言語処理タスクに適しています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語対応 #長文脈理解 #効率的な推論

ダウンロード数 5,403

リリース時間 : 4/28/2025

モデル概要

Qwen3-8B-Baseは因果言語モデルに基づく事前学習モデルで、言語モデリング、推論能力、長文脈理解に特化しています。

モデル特徴

拡張された高品質事前学習コーパス

119種類の言語の36兆個のトークンで事前学習を行い、言語カバレッジはQwen2.5の3倍で、より豊富な高品質データを含んでいます。

学習技術とモデルアーキテクチャの改善

グローバルバッチ負荷均衡損失とqk層正規化を採用し、安定性と全体的な性能を向上させました。

三ステージ事前学習

第1段階は言語モデリングと一般知識の獲得に焦点を当て；第2段階は推論能力を向上させ；第3段階は長文脈理解能力を強化します。

スケーリング則に基づくハイパーパラメータ調整

スケーリング則の研究を通じて、重要なハイパーパラメータをシステマティックに調整し、より良い学習ダイナミクスと最終的な性能を実現します。

モデル能力

テキスト生成

言語モデリング

論理推論

長文脈理解

多言語対応

使用事例

自然言語処理

テキスト生成

高品質の自然言語テキストを生成する

流暢で首尾一貫したテキストを生成する

論理推論

複雑な論理と推論問題を解決する

STEM、コーディング、論理推論能力を向上させる

多言語対応

119種類の言語のテキスト処理をサポートする

広範な言語カバレッジ

🚀 Qwen3-8B-Base

Qwen3-8B-Baseは、Qwenシリーズの最新の大規模言語モデルです。高密度モデルとエキスパート混合（MoE）モデルを提供し、トレーニングデータ、モデルアーキテクチャ、最適化手法などで大幅な進歩を遂げています。

🚀 クイックスタート

このモデルを使用するには、最新バージョンのtransformersライブラリを使用することをおすすめします。Qwen3のコードは最新のHugging Face transformersに含まれています。

transformers<4.51.0を使用すると、以下のエラーが発生する可能性があります。

KeyError: 'qwen3'

✨ 主な機能

Qwen3の特長

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。トレーニングデータ、モデルアーキテクチャ、最適化手法の大幅な進歩に基づき、以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

拡張された高品質事前学習コーパス：Qwen3は119言語で36兆トークンの事前学習を行っており、Qwen2.5の言語カバレッジを3倍に拡大し、コーディング、STEM、推論、書籍、多言語、合成データなどの非常に豊富な高品質データを含んでいます。
トレーニング手法とモデルアーキテクチャ：Qwen3は一連のトレーニング手法とアーキテクチャの改良を組み込んでおり、MoEモデルのグローバルバッチ負荷均衡損失とすべてのモデルのqkレイヤー正規化を含み、安定性と全体的なパフォーマンスの向上につながっています。
三段階事前学習：第1段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階はSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階はトレーニングシーケンス長を最大32kトークンに拡張することで長文脈理解を強化します。
スケーリング則に基づくハイパーパラメータ調整：三段階事前学習パイプライン全体での包括的なスケーリング則の研究を通じて、Qwen3は高密度モデルとMoEモデルそれぞれについて学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを体系的に調整し、異なるモデルスケールでのトレーニングダイナミクスと最終的なパフォーマンスを向上させています。

Qwen3-8B-Baseの特徴

プロパティ	詳細
モデルタイプ	Causal Language Models
トレーニング段階	Pretraining
パラメータ数	82億
パラメータ数 (非埋め込み)	69.5億
レイヤー数	36
アテンションヘッド数 (GQA)	Q: 32、KV: 8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。

📚 ドキュメント

評価とパフォーマンス

詳細な評価結果は、この📑 ブログに報告されています。

引用

もしあなたが私たちの仕事が役に立ったと感じたら、ぜひ引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}