Qwen3-8B-Base開源大語言模型 - 免費使用為你提供全面知識問答支持

首頁

Qwen3 8B Base Unsloth Bnb 4bit

由unsloth開發

Qwen3-8B-Base是通義系列最新一代大語言模型，提供了一套全面的密集和混合專家（MoE）模型，基於在訓練數據、模型架構和優化技術方面的大量改進。

大型語言模型

Transformers

開源協議:Apache-2.0 #多語言大模型 #長上下文理解 #MoE架構優化

下載量 6,214

發布時間 : 4/28/2025

模型概述

Qwen3-8B-Base是一個預訓練的因果語言模型，具有82億參數，支持32k上下文長度，適用於多種語言任務。

模型特點

擴展的高質量預訓練語料庫

在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，擁有更豐富的高質量數據。

訓練技術和模型架構改進

採用全局批量負載均衡損失和qk層歸一化，提高了穩定性和整體性能。

三階段預訓練

第一階段專注於語言建模和一般知識獲取，第二階段提高推理能力，第三階段增強長上下文理解能力。

基於縮放定律的超參數調優

通過全面的縮放定律研究，系統地調整關鍵超參數，實現更好的訓練動態和最終性能。

模型能力

文本生成

語言建模

多語言支持

長上下文理解

邏輯推理

使用案例

自然語言處理

多語言文本生成

生成高質量的多語言文本，適用於翻譯、內容創作等場景。

長文檔理解

處理和理解長達32k標記的長文檔，適用於文檔摘要、問答等任務。

編碼與STEM

代碼生成與補全

生成和補全代碼片段，支持多種編程語言。

邏輯推理與數學計算

解決複雜的邏輯推理和數學計算問題。

🚀 Qwen3-8B-Base

Qwen3-8B-Base是Qwen系列最新一代大語言模型，提供了一套全面的密集模型和專家混合（MoE）模型。本項目基於在訓練數據、模型架構和優化技術方面的廣泛改進，相比之前發佈的Qwen2.5有顯著提升。

Unsloth Dynamic 2.0實現了卓越的準確性，性能優於其他領先的量化方法。

✨ 主要特性

Qwen3亮點

Qwen3是通義系列最新一代大語言模型，提供了一套全面的密集和混合專家（MoE）模型。基於在訓練數據、模型架構和優化技術方面的大量改進，與之前發佈的Qwen2.5相比，Qwen3有以下關鍵改進：

擴展的高質量預訓練語料庫：Qwen3在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，擁有更豐富的高質量數據，包括編碼、STEM、推理、書籍、多語言和合成數據。
訓練技術和模型架構：Qwen3採用了一系列訓練技術和架構改進，包括針對MoE模型的全局批量負載均衡損失和適用於所有模型的qk層歸一化，提高了穩定性和整體性能。
三階段預訓練：第一階段專注於廣泛的語言建模和一般知識獲取，第二階段提高推理能力，如STEM、編碼和邏輯推理，第三階段通過將訓練序列長度擴展到32k標記來增強長上下文理解能力。
基於縮放定律的超參數調優：通過在三階段預訓練流程中進行全面的縮放定律研究，Qwen3分別針對密集模型和MoE模型系統地調整關鍵超參數，如學習率調度器和批量大小，從而在不同模型規模下實現更好的訓練動態和最終性能。

模型概述

Qwen3-8B-Base 具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練
參數數量	82億
非嵌入參數數量	69.5億
層數	36
注意力頭數量（GQA）	Q為32，KV為8
上下文長度	32,768

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub 和文檔。

📚 詳細文檔

要求

Qwen3的代碼已集成到最新的Hugging Face transformers 庫中，建議使用最新版本的 transformers。

如果使用 transformers<4.51.0，會遇到以下錯誤：

KeyError: 'qwen3'

評估與性能

詳細的評估結果請參考此 📑 博客。

引用

如果您覺得我們的工作有幫助，請引用：

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}