Qwen3-4B-Base開源大語言模型 - 多語言對話支持32k上下文長度

首頁

Qwen3 4B Base

由Qwen開發

Qwen3-4B-Base是通義千問系列最新一代40億參數大語言模型，基於36萬億token的多語言數據預訓練，支持32k上下文長度。

大型語言模型

Transformers

開源協議:Apache-2.0 #多語言支持 #長文本理解 #STEM推理

下載量 50.84k

發布時間 : 4/28/2025

模型概述

Qwen3-4B-Base是一個因果語言模型，專注於通用語言理解和生成任務，適用於文本生成、代碼補全等多種場景。

模型特點

大規模多語言預訓練

基於36萬億token的119種語言數據進行預訓練，語言覆蓋範圍達前代的三倍

三階段訓練優化

採用通用語言建模→專項能力強化→長上下文訓練的三階段預訓練範式

長上下文支持

支持32k tokens的超長上下文處理能力

高效注意力機制

採用分組查詢注意力(GQA)架構，查詢頭32組/鍵值頭8組配置

模型能力

文本生成

多語言理解

代碼補全

邏輯推理

長文本處理

使用案例

自然語言處理

多語言文本生成

生成多種語言的連貫文本內容

支持119種語言的流暢生成

技術文檔處理

處理STEM領域技術文檔和代碼

在代碼和STEM領域數據上進行了專項優化

開發輔助

代碼補全

輔助程序員進行代碼編寫和補全

預訓練數據中提升了代碼相關數據佔比

🚀 Qwen3-4B-Base

Qwen3-4B-Base是Qwen系列最新一代大語言模型，提供了一系列密集模型和專家混合（MoE）模型。它在訓練數據、模型架構和優化技術等方面進行了大量改進，相較於之前發佈的Qwen2.5有顯著提升。

🚀 快速開始

Qwen3的代碼已集成到最新的Hugging Face transformers庫中，建議使用最新版本的transformers。若使用transformers<4.51.0，會遇到如下錯誤：

KeyError: 'qwen3'

✨ 主要特性

Qwen3的顯著提升

Qwen3是Qwen系列的最新一代大語言模型，提供了一套全面的密集模型和專家混合（MoE）模型。基於在訓練數據、模型架構和優化技術方面的大量改進，Qwen3相較於之前發佈的Qwen2.5有以下關鍵提升：

擴展的高質量預訓練語料庫：Qwen3在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，且包含了更豐富的高質量數據，如編碼、STEM、推理、書籍、多語言和合成數據。
訓練技術和模型架構：Qwen3採用了一系列訓練技術和架構改進，包括用於MoE模型的全局批量負載平衡損失和適用於所有模型的qk層歸一化，從而提高了穩定性和整體性能。
三階段預訓練：第一階段專注於廣泛的語言建模和通用知識獲取，第二階段提高推理能力，如STEM、編碼和邏輯推理，第三階段通過將訓練序列長度擴展到32k個標記來增強長上下文理解能力。
基於縮放定律的超參數調整：通過在三階段預訓練流程中進行全面的縮放定律研究，Qwen3針對密集模型和MoE模型分別系統地調整關鍵超參數，如學習率調度器和批量大小，從而在不同模型規模下實現更好的訓練動態和最終性能。

Qwen3-4B-Base的特性

類型：因果語言模型
訓練階段：預訓練
參數數量：40億
非嵌入參數數量：36億
層數：36
注意力頭數量（GQA）：Q為32，KV為8
上下文長度：32,768

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub和文檔。

📚 詳細文檔

詳細的評估結果請參考此博客。

引用

如果您覺得我們的工作有幫助，請引用以下內容：

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}