Qwen3-1.7B-Baseオープンソース大規模言語モデル - 高品質な事前学習済み言語能力を無料で取得

ホーム

Qwen3 1.7B Base Unsloth Bnb 4bit

unslothによって開発

Qwen3-1.7B-Baseは通義千問シリーズの最新世代大規模言語モデルで、高品質な事前学習言語モデル能力を提供します。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #多言語大規模モデル #32K長文理解 #STEM推論最適化

ダウンロード数 689

リリース時間 : 4/28/2025

モデル概要

Qwen3-1.7B-Baseは17億パラメータの因果言語モデルで、汎用言語モデリングと知識獲得に焦点を当て、32kの超長文脈理解をサポートします。

モデル特徴

高品質事前学習コーパス

119言語にわたる36兆トークンをカバーし、プログラミング、STEM、推論などの高価値コンテンツ比率を大幅に向上。

学習技術とアーキテクチャ最適化

MoEモデルのグローバルバッチ負荷分散損失、全モデルqk層正規化などの革新的技術を採用し、学習安定性と性能を向上。

3段階事前学習体系

段階的に汎用言語モデリング、STEM/プログラミング/論理推論能力、長文理解を強化。

超長文脈サポート

32k超長文脈学習をサポートし、長文理解能力を強化。

モデル能力

テキスト生成

言語理解

プログラミング能力

論理推論

長文処理

使用事例

自然言語処理

テキスト生成

高品質な自然言語テキストを生成

プログラミング支援

コードの作成と最適化を支援

教育

STEM教育

STEM分野の学習と教育を支援

🚀 Qwen3-1.7B-Base

Qwen3-1.7B-BaseはQwenシリーズの最新世代の大規模言語モデルで、高密度およびエキスパート混合（MoE）モデルを提供し、幅広い分野での応用が期待されます。

🚀 クイックスタート

このモデルを使用するには、最新バージョンのtransformersライブラリを使用することをおすすめします。transformers<4.51.0を使用すると、以下のエラーが発生する可能性があります。

KeyError: 'qwen3'

✨ 主な機能

Qwen3の特徴

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度およびエキスパート混合（MoE）モデルの包括的なセットを提供します。トレーニングデータ、モデルアーキテクチャ、最適化技術における広範な進歩に基づき、Qwen3は以前にリリースされたQwen2.5に比べて以下の主要な改善を実現しています。

拡張された高品質事前学習コーパス：Qwen3は119言語の36兆トークンで事前学習されており、Qwen2.5の言語カバレッジを3倍に拡大し、コーディング、STEM、推論、書籍、多言語、合成データなどの非常に豊富な高品質データを含んでいます。
トレーニング技術とモデルアーキテクチャ：Qwen3は一連のトレーニング技術とアーキテクチャの改良を組み込んでおり、MoEモデルのグローバルバッチ負荷均衡損失とすべてのモデルのqkレイヤー正規化を含み、安定性と全体的なパフォーマンスの向上につながっています。
三段階事前学習：第1段階は広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階はSTEM、コーディング、論理推論などの推論スキルを向上させ、第3段階はトレーニングシーケンス長を最大32kトークンに拡張することで長文脈理解を強化します。
スケーリング則に基づくハイパーパラメータチューニング：三段階事前学習パイプライン全体での包括的なスケーリング則研究を通じて、Qwen3は高密度およびMoEモデルに対して学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを体系的に調整し、異なるモデル規模でのトレーニングダイナミクスと最終的なパフォーマンスを向上させています。

モデル概要

Qwen3-1.7B-Baseは以下の特徴を持っています。

属性	详情
モデルタイプ	Causal Language Models
トレーニング段階	Pretraining
パラメータ数	1.7B
パラメータ数（非埋め込み）	1.4B
レイヤー数	28
アテンションヘッド数（GQA）	Qは16、KVは8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、およびドキュメントを参照してください。

📚 ドキュメント

評価とパフォーマンス

詳細な評価結果は、このブログに報告されています。

引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}