Qwen3-14B-Base開源大語言模型 - 免費部署支持119種語言交流

首頁

Qwen3 14B Base Unsloth Bnb 4bit

由unsloth開發

Qwen3-14B-Base是通義千問系列最新一代大語言模型，提供148億參數的稠密模型，支持32k上下文長度，覆蓋119種語言。

大型語言模型

Transformers

開源協議:Apache-2.0 #多語言大模型 #長上下文理解 #STEM推理優化

下載量 2,120

發布時間 : 4/28/2025

模型概述

Qwen3-14B-Base是一個預訓練因果語言模型，專注於通用語言建模、STEM/編程/邏輯推理能力以及長文本理解。

模型特點

優質預訓練語料庫

訓練數據覆蓋119種語言的36萬億token，語言覆蓋率達Qwen2.5的三倍，並顯著提升編程、STEM、推理、書籍、多語言及合成數據的高質量內容佔比。

創新訓練架構技術

採用包括MoE模型全局批負載均衡損失函數、全模型qk層歸一化在內的一系列技術創新，顯著提升訓練穩定性與綜合性能。

三階段預訓練體系

第一階段專注通用語言建模，第二階段強化STEM/編程/邏輯推理能力，第三階段通過32k超長上下文訓練增強長文本理解。

縮放定律指導的超參優化

基於三階段預訓練管線的系統化縮放研究，分別針對稠密模型與MoE模型優化學習率調度器、批大小等關鍵超參，實現不同規模模型的最佳訓練動態。

模型能力

文本生成

語言理解

編程能力

邏輯推理

長文本處理

使用案例

編程輔助

代碼生成

根據自然語言描述生成代碼片段

代碼補全

根據上下文自動補全代碼

內容創作

文章寫作

根據主題生成連貫的文章

多語言翻譯

在支持的語言之間進行翻譯

教育

STEM問題解答

解答科學、技術、工程和數學相關問題

🚀 Qwen3-14B-Base

Qwen3-14B-Base是Qwen系列最新一代大語言模型，提供了一系列密集模型和專家混合（MoE）模型。它在訓練數據、模型架構和優化技術等方面取得了顯著進展，相較於之前發佈的Qwen2.5有諸多關鍵改進。

🚀 快速開始

Qwen3的代碼已集成到最新的Hugging Face transformers庫中，建議使用最新版本的transformers。

若使用transformers<4.51.0，會遇到如下錯誤：

KeyError: 'qwen3'

✨ 主要特性

Qwen3亮點

Qwen3是Qwen系列的最新一代大語言模型，提供了一套全面的密集模型和專家混合（MoE）模型。基於在訓練數據、模型架構和優化技術方面的廣泛改進，Qwen3相較於之前發佈的Qwen2.5有以下關鍵改進：

擴展的高質量預訓練語料庫：Qwen3在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，並且包含了更豐富的高質量數據，包括編碼、STEM、推理、書籍、多語言和合成數據。
訓練技術和模型架構：Qwen3採用了一系列訓練技術和架構改進，包括針對MoE模型的全局批量負載平衡損失和適用於所有模型的qk層歸一化，從而提高了穩定性和整體性能。
三階段預訓練：第一階段專注於廣泛的語言建模和通用知識獲取；第二階段提高推理技能，如STEM、編碼和邏輯推理；第三階段通過將訓練序列長度擴展到32k標記來增強長上下文理解能力。
基於縮放定律的超參數調整：通過對三階段預訓練流程進行全面的縮放定律研究，Qwen3分別針對密集模型和MoE模型系統地調整關鍵超參數，如學習率調度器和批量大小，從而在不同模型規模下實現更好的訓練動態和最終性能。

模型概述

Qwen3-14B-Base 具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練
參數數量	148億
參數數量（非嵌入）	132億
層數	40
注意力頭數量（GQA）	Q為40，KV為8
上下文長度	32,768

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub和文檔。

🔧 技術細節

評估與性能

詳細的評估結果請參考此📑 博客。

引用

如果您覺得我們的工作有幫助，請引用我們的成果。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}