Qwen3-8B-Base開源大模型 - 支持119種語言，多種自然語言任務免費處理

首頁

Qwen3 8B Base

由unsloth開發

Qwen3-8B-Base 是通義大模型系列的最新一代產品，具有82億參數，支持119種語言，適用於多種自然語言處理任務。

大型語言模型

Transformers

開源協議:Apache-2.0 #多語言支持 #長上下文理解 #高效推理

下載量 5,403

發布時間 : 4/28/2025

模型概述

Qwen3-8B-Base 是一款基於因果語言模型的預訓練模型，專注於語言建模、推理能力和長上下文理解。

模型特點

擴展的高質量預訓練語料庫

在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，包含更豐富的高質量數據。

訓練技術和模型架構改進

採用全局批量負載平衡損失和qk層歸一化，提高了穩定性和整體性能。

三階段預訓練

第一階段專注於語言建模和常識獲取；第二階段提升推理能力；第三階段增強長上下文理解能力。

基於縮放定律的超參數調整

通過縮放定律研究，系統調整關鍵超參數，實現更好的訓練動態和最終性能。

模型能力

文本生成

語言建模

邏輯推理

長上下文理解

多語言支持

使用案例

自然語言處理

文本生成

生成高質量的自然語言文本

生成流暢、連貫的文本

邏輯推理

解決複雜的邏輯和推理問題

提升STEM、編碼和邏輯推理能力

多語言支持

支持119種語言的文本處理

廣泛的語言覆蓋範圍

🚀 Qwen3-8B-Base

Qwen3-8B-Base 是 Qwen3 系列中的一款模型，Qwen3 是通義大模型系列的最新一代產品。它在訓練數據、模型架構和優化技術等方面進行了大量改進，相比之前的 Qwen2.5 有顯著提升。該模型具有多種特性，適用於多種自然語言處理任務。

✨ 主要特性

Qwen3 亮點

Qwen3 是通義系列的最新一代大語言模型，提供了一系列密集型和專家混合（MoE）模型。基於訓練數據、模型架構和優化技術的廣泛改進，與之前發佈的 Qwen2.5 相比，Qwen3 有以下關鍵提升：

擴展的高質量預訓練語料庫：Qwen3 在 119 種語言的 36 萬億個標記上進行預訓練，語言覆蓋範圍是 Qwen2.5 的三倍，並且包含了更豐富的高質量數據，包括編碼、STEM、推理、書籍、多語言和合成數據。
訓練技術和模型架構：Qwen3 採用了一系列訓練技術和架構改進，包括用於 MoE 模型的全局批量負載平衡損失和適用於所有模型的 qk 層歸一化，從而提高了穩定性和整體性能。
三階段預訓練：第一階段專注於廣泛的語言建模和常識獲取；第二階段提升 STEM、編碼和邏輯推理等推理能力；第三階段通過將訓練序列長度擴展到 32k 個標記來增強長上下文理解能力。
基於縮放定律的超參數調整：通過對三階段預訓練流程進行全面的縮放定律研究，Qwen3 分別為密集型和 MoE 模型系統地調整關鍵超參數（如學習率調度器和批量大小），從而在不同模型規模下實現更好的訓練動態和最終性能。

模型概述

Qwen3 - 8B - Base 具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練
參數數量	82 億
非嵌入參數數量	69.5 億
層數	36
注意力頭數量（GQA）	Q 為 32，KV 為 8
上下文長度	32768

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub 和文檔。

📚 詳細文檔

環境要求

Qwen3 的代碼已集成到最新的 Hugging Face transformers 庫中，建議使用最新版本的 transformers。

如果使用 transformers<4.51.0，會遇到以下錯誤：

KeyError: 'qwen3'

評估與性能

詳細的評估結果請參考此 📑 博客。

引用

如果您覺得我們的工作有幫助，請引用我們的工作：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}