Qwen3-1.7B-Baseオープンソース言語モデル - 長いコンテキストをサポートする実用的なテキスト処理の強力ツール

ホーム

Qwen3 1.7B Base

Qwenによって開発

Qwen3-1.7Bは通義千問シリーズ最新世代の17億パラメータ基本言語モデルで、3段階事前学習体系を採用し、32kのコンテキスト長をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #32K長文理解 #多言語サポート #STEM推論最適化

ダウンロード数 19.24k

リリース時間 : 4/28/2025

モデル概要

36兆トークンの多言語データで事前学習された因果言語モデルで、汎用言語モデリングと専門能力強化に焦点を当てています。

モデル特徴

多段階事前学習体系

3段階トレーニングプロセス：汎用言語モデリング→STEM/プログラミング専門強化→32k長文コンテキスト適応

超大規模コーパス

36兆トークンの119言語データに基づき、プログラミング/STEM/推論など多分野をカバー

トレーニング技術革新

グローバルバッチ負荷分散損失とqk層正規化技術を採用し、トレーニング安定性を向上

モデル能力

多言語テキスト生成

長文理解（32kコンテキスト）

プログラミングコード生成

論理的推論

STEM問題解答

使用事例

インテリジェントアシスタント

マルチターン対話システム

長文コンテキスト記憶をサポートする対話アプリケーション

教育

STEM問題解決指導

数学/科学問題のステップバイステップ解答

🚀 Qwen3-1.7B-Base

Qwen3-1.7B-Baseは、Qwenシリーズの最新世代の大規模言語モデルです。高密度モデルとエキスパート混合（MoE）モデルを総合的に提供し、多言語やコーディングなど幅広いタスクに対応します。

🚀 クイックスタート

Qwen3-1.7B-Baseは、Qwenシリーズの進化版で、多言語やコーディングなどのタスクに対応した大規模言語モデルです。最新のHugging Face transformersライブラリを使用して、簡単に利用できます。

✨ 主な機能

Qwen3はQwenシリーズの最新世代の大規模言語モデルで、高密度モデルとエキスパート混合（MoE）モデルを総合的に提供します。Qwen2.5と比較して、以下のような改良点があります。

高品質な事前学習コーパスの拡充：119言語、36兆トークンで事前学習され、Qwen2.5の3倍の言語カバレッジを持ち、コーディング、STEM、推論、書籍、多言語、合成データなどの高品質データが豊富に含まれています。
トレーニング技術とモデルアーキテクチャ：MoEモデルのグローバルバッチロードバランシング損失や、すべてのモデルに適用されるqkレイヤーノルムなど、一連のトレーニング技術とアーキテクチャの改良が施され、安定性と全体的なパフォーマンスが向上しています。
三段階の事前学習：第1段階では広範な言語モデリングと一般知識の獲得に焦点を当て、第2段階ではSTEM、コーディング、論理推論などの推論能力を向上させ、第3段階ではトレーニングシーケンス長を最大32kトークンまで拡張して長文脈理解能力を強化しています。
スケーリング則に基づくハイパーパラメータチューニング：三段階の事前学習パイプライン全体で包括的なスケーリング則の研究を通じて、高密度モデルとMoEモデルそれぞれに対して、学習率スケジューラやバッチサイズなどの重要なハイパーパラメータを体系的に調整し、異なるモデル規模でのトレーニングダイナミクスと最終的なパフォーマンスを向上させています。

📦 インストール

Qwen3のコードは最新のHugging Face transformersに含まれています。最新バージョンのtransformersを使用することをおすすめします。

transformers<4.51.0を使用すると、以下のエラーが発生する場合があります。

KeyError: 'qwen3'

📚 ドキュメント

モデル概要

Qwen3-1.7B-Baseは以下の特徴を持っています。

属性	详情
モデルタイプ	Causal Language Models
トレーニング段階	事前学習
パラメータ数	17億
パラメータ数（非埋め込み）	14億
レイヤー数	28
アテンションヘッド数（GQA）	Q: 16、KV: 8
コンテキスト長	32,768

ベンチマーク評価、ハードウェア要件、推論パフォーマンスなどの詳細については、ブログ、GitHub、ドキュメントを参照してください。

評価とパフォーマンス

詳細な評価結果はこの📑 ブログに報告されています。

引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}