Qwen3 - 0.6B - Baseオープンソース大規模言語モデル - 119種類の言語をサポートした長文脈対話、無料でのデプロイ可

ホーム

Qwen3 0.6B Base Unsloth Bnb 4bit

unslothによって開発

Qwen3-0.6B-Baseは通義シリーズの最新世代の大規模言語モデルで、0.6Bのパラメータ規模を持ち、119種類の言語をサポートし、文脈長は32,768トークンに達します。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語大規模言語モデル #長文脈理解 #三段階事前学習

ダウンロード数 10.84k

リリース時間 : 4/28/2025

モデル概要

Qwen3-0.6B-Baseは事前学習された因果言語モデルで、広範な言語モデリングと一般知識の獲得に特化し、同時に推論能力と長文脈理解能力を備えています。

モデル特徴

多言語サポート

119種類の言語の36兆個のトークンで事前学習されており、言語のカバー範囲が広いです。

三段階事前学習

第一段階は言語モデリングと一般知識の獲得に重点を置き；第二段階は推論能力を向上させ；第三段階は長文脈理解能力を強化します。

最適化された学習技術

グローバルバッチ負荷均衡損失やqk層正規化などの技術を採用し、モデルの安定性と性能を向上させます。

長文脈理解

最大32,768トークンの文脈長をサポートし、長文テキストのタスクを処理するのに適しています。

モデル能力

テキスト生成

言語モデリング

多言語処理

長文脈理解

論理推論

使用事例

自然言語処理

多言語テキスト生成

複数の言語の首尾一貫したテキストを生成する

119種類の言語の流暢な生成をサポート

長文書要約

長文書の内容を処理して理解し、要約を生成する

32kトークンの文脈長サポートのおかげで

教育

STEM問題解答

科学、技術、工学、数学に関連する問題を解答する

第二段階の事前学習でSTEM能力が特に強化されています

🚀 Qwen3-0.6B-Base

Qwen3-0.6B-BaseはQwenシリーズの最新世代の大規模言語モデルで、豊富な密集モデルとエキスパート混合（MoE）モデルを提供しています。このモデルは、訓練データ、モデルアーキテクチャ、最適化技術などの面で著しい進歩を遂げ、以前にリリースされたQwen2.5と比較して多面的な向上が見られます。

✨ 主な機能

Qwen3の特長

Qwen3は通義シリーズの最新世代の大規模言語モデルで、包括的な密集モデルとエキスパート混合（MoE）モデルのセットを提供しています。訓練データ、モデルアーキテクチャ、最適化技術に関する幅広い改良に基づき、以前にリリースされたQwen2.5と比較して、Qwen3には以下の重要な改良があります。

拡張された高品質事前訓練コーパス：Qwen3は119種類の言語の36兆個のトークンで事前訓練されており、言語のカバー範囲はQwen2.5の3倍で、コーディング、STEM、推論、書籍、多言語、合成データなど、より豊富な高品質データを含んでいます。
訓練技術とモデルアーキテクチャ：Qwen3は、MoEモデル用のグローバルバッチ負荷均衡損失や、すべてのモデルに適用されるqk層正規化など、一連の訓練技術とアーキテクチャの改良を採用しており、安定性と全体的な性能を向上させています。
三段階事前訓練：第一段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第二段階はSTEM、コーディング、論理推論などの推論能力を向上させ、第三段階は訓練シーケンス長を32kトークンに拡張することで、長文脈理解能力を強化しています。
スケーリング則に基づく超パラメータ調整：Qwen3は、三段階事前訓練プロセスにおける包括的なスケーリング則研究を通じて、密集モデルとMoEモデルそれぞれに対して、学習率スケジューラやバッチサイズなどの重要な超パラメータを体系的に調整し、異なるモデル規模でより良い訓練ダイナミクスと最終性能を実現しています。

モデル概要

Qwen3 - 0.6B - Base は以下の特徴を持っています。

属性	詳細
モデルタイプ	因果言語モデル
訓練段階	事前訓練
パラメータ数	0.6B
非埋め込みパラメータ数	0.44B
層数	28
注意力ヘッド数（GQA）	Qは16、KVは8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論性能などの詳細情報については、ブログ、GitHub、ドキュメントを参照してください。

📦 インストール

Qwen3のコードは最新のHugging Face transformers ライブラリに統合されています。最新バージョンの transformers を使用することをおすすめします。

transformers<4.51.0 を使用すると、以下のエラーが発生する可能性があります。

KeyError: 'qwen3'

📚 ドキュメント

評価と性能

詳細な評価結果については、このブログを参照してください。

引用

もし私たちの研究が役に立ったと思われる場合は、以下のように引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}