Qwen3-8B-Baseオープンソース大規模言語モデル - 無料で利用可能で、包括的な知識質問応答サポートを提供します

ホーム

Qwen3 8B Base Unsloth Bnb 4bit

unslothによって開発

Qwen3-8B-Baseは通義シリーズの最新世代の大規模言語モデルで、包括的な密集型および混合専門家（MoE）モデルのセットを提供しています。これは、学習データ、モデルアーキテクチャ、および最適化技術に関する大量の改善に基づいています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語大規模言語モデル #長文脈理解 #MoEアーキテクチャ最適化

ダウンロード数 6,214

リリース時間 : 4/28/2025

モデル概要

Qwen3-8B-Baseは事前学習された因果言語モデルで、82億のパラメータを持ち、32kの文脈長をサポートし、様々な言語タスクに適しています。

モデル特徴

拡張された高品質事前学習コーパス

119種類の言語の36兆個のトークンで事前学習されており、言語カバレッジはQwen2.5の3倍で、より豊富な高品質データを持っています。

学習技術とモデルアーキテクチャの改善

グローバルバッチ負荷均衡損失とqk層正規化を採用し、安定性と全体的な性能を向上させました。

三段階事前学習

第1段階は言語モデリングと一般的な知識獲得に焦点を当て、第2段階は推論能力を向上させ、第3段階は長文脈理解能力を強化します。

スケーリング則に基づくハイパーパラメータ調整

包括的なスケーリング則の研究を通じて、重要なハイパーパラメータを体系的に調整し、より良い学習ダイナミクスと最終的な性能を実現します。

モデル能力

テキスト生成

言語モデリング

多言語サポート

長文脈理解

論理推論

使用事例

自然言語処理

多言語テキスト生成

高品質の多言語テキストを生成し、翻訳、コンテンツ作成などのシナリオに適しています。

長文書理解

最大32kトークンの長文書を処理および理解し、文書要約、質問応答などのタスクに適しています。

コーディングとSTEM

コード生成と補完

コード断片を生成および補完し、複数のプログラミング言語をサポートします。

論理推論と数学計算

複雑な論理推論と数学計算の問題を解決します。

🚀 Qwen3-8B-Base

Unsloth Dynamic 2.0は、卓越した精度を達成し、他の主要な量子化手法を上回ります。Unslothについて詳しくは、Unsloth公式サイト、GitHubリポジトリ、Discordコミュニティ、ドキュメントをご覧ください。

Unsloth Dynamic 2.0 は、卓越した精度を達成し、他の主要な量子化手法を上回ります。

✨ 主な機能

Qwen3の特長

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルの包括的なセットを提供します。訓練データ、モデルアーキテクチャ、最適化手法における広範な進歩に基づき、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

拡張された高品質事前学習コーパス：Qwen3は119言語にわたる36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大し、コーディング、STEM、推論、書籍、多言語、合成データなどの非常に豊富な高品質データを含んでいます。
訓練手法とモデルアーキテクチャ：Qwen3は、MoEモデルのグローバルバッチ負荷均衡損失やすべてのモデルのqkレイヤー正規化など、一連の訓練手法とアーキテクチャの改良を組み込んでおり、安定性と全体的なパフォーマンスの向上につながっています。
三段階事前学習：第1段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階はSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階は訓練シーケンス長を最大32kトークンに拡張することで長文脈理解を強化します。
スケーリング則に基づくハイパーパラメータチューニング：三段階事前学習パイプライン全体での包括的なスケーリング則研究を通じて、Qwen3は高密度モデルとMoEモデルそれぞれに対して学習率スケジューラーやバッチサイズなどの重要なハイパーパラメータを系統的にチューニングし、異なるモデル規模での訓練ダイナミクスと最終的なパフォーマンスを向上させています。

モデル概要

Qwen3-8B-Base は以下の特徴を持っています。

属性	详情
モデルタイプ	因果言語モデル
訓練段階	事前学習
パラメータ数	82億
パラメータ数（非埋め込み）	69.5億
レイヤー数	36
アテンションヘッド数（GQA）	Q: 32、KV: 8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、ドキュメントを参照してください。

📦 インストール

Qwen3のコードは最新のHugging Face transformers に含まれており、最新バージョンの transformers の使用を推奨します。

transformers<4.51.0 を使用すると、以下のエラーが発生する場合があります。

KeyError: 'qwen3'

📚 ドキュメント

評価とパフォーマンス

詳細な評価結果はこの📑 ブログに報告されています。

引用

もし当社の成果が役立った場合は、ぜひ引用してください。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}