Qwen3 4B Base
Qwen3-4B-Baseは通義千問シリーズ最新世代の40億パラメータ大規模言語モデルで、36兆トークンの多言語データで事前学習され、32kのコンテキスト長をサポートします。
ダウンロード数 50.84k
リリース時間 : 4/28/2025
モデル概要
Qwen3-4B-Baseは因果言語モデルで、汎用的な言語理解と生成タスクに特化しており、テキスト生成やコード補完など様々なシナリオに適用可能です。
モデル特徴
大規模多言語事前学習
36兆トークンの119言語データで事前学習され、言語カバレッジは前世代の3倍に達します
3段階トレーニング最適化
汎用言語モデリング→専門能力強化→長文脈トレーニングの3段階事前学習パラダイムを採用
長文脈サポート
32kトークンの超長文脈処理能力をサポート
効率的な注意メカニズム
グループ化クエリ注意(GQA)アーキテクチャを採用し、クエリヘッド32グループ/キーバリューヘッド8グループ構成
モデル能力
テキスト生成
多言語理解
コード補完
論理的推論
長文処理
使用事例
自然言語処理
多言語テキスト生成
複数言語の一貫性のあるテキストコンテンツを生成
119言語の流暢な生成をサポート
技術文書処理
STEM分野の技術文書やコードを処理
コードとSTEM分野データに対して特別な最適化を実施
開発支援
コード補完
プログラマーのコード作成と補完を支援
事前学習データにおけるコード関連データの比率を向上
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98