Qwen3-8B-Base-bnb-4bit開源大語言模型 - 多語言交互高效又精準

首頁

Qwen3 8B Base Bnb 4bit

由unsloth開發

Qwen3-8B-Base是Qwen系列最新一代的大語言模型，基於36萬億標記的多語言預訓練數據，優化了模型架構和訓練技術，提供高效精準的語言交互體驗。

大型語言模型

Transformers

開源協議:Apache-2.0 #多語言大模型 #長上下文理解 #三階段預訓練

下載量 1,406

發布時間 : 4/28/2025

模型概述

Qwen3-8B-Base是一款強大的因果語言模型，專注於預訓練階段，支持長上下文理解和多語言處理，適用於文本生成、推理等多種任務。

模型特點

擴展的高質量預訓練語料庫

在119種語言的36萬億標記上進行預訓練，語言覆蓋範圍是前代的三倍，包含豐富的高質量數據。

優化的訓練技術和架構

採用全局批量負載平衡損失和qk層歸一化等技術，提高了模型的穩定性和性能。

三階段預訓練流程

分階段專注於語言建模、推理能力提升和長上下文理解，系統性地優化模型能力。

長上下文支持

支持長達32768標記的上下文長度，增強了對長文本的理解和處理能力。

模型能力

多語言文本生成

邏輯推理

代碼生成

長文本理解

STEM領域問題解答

使用案例

自然語言處理

多語言聊天機器人

構建支持多種語言的智能對話系統

可提供流暢、準確的多語言交互體驗

代碼輔助工具

幫助開發者生成和優化代碼

提高編程效率，減少重複工作

教育

STEM問題解答

解答科學、技術、工程和數學領域的問題

提供準確的專業知識解答

🚀 Qwen3-8B-Base

Qwen3-8B-Base是一款強大的大語言模型，基於Qwen系列最新技術，在訓練數據、模型架構等多方面進行了顯著優化，能為用戶提供更精準、高效的語言交互體驗。

📦 安裝指南

Qwen3的代碼已集成在最新版的Hugging Face transformers庫中，建議你使用transformers的最新版本。

若使用transformers<4.51.0，會遇到如下錯誤：

KeyError: 'qwen3'

✨ 主要特性

Qwen3亮點

Qwen3是Qwen系列的最新一代大語言模型，提供了一系列密集模型和專家混合（MoE）模型。在訓練數據、模型架構和優化技術等方面進行了大量改進，與之前發佈的Qwen2.5相比，Qwen3有以下關鍵提升：

擴展的高質量預訓練語料庫：Qwen3在119種語言的36萬億個標記上進行預訓練，語言覆蓋範圍是Qwen2.5的三倍，並且包含了更豐富的高質量數據，如編碼、STEM、推理、書籍、多語言和合成數據。
訓練技術和模型架構：Qwen3採用了一系列訓練技術和架構優化，包括用於MoE模型的全局批量負載平衡損失和適用於所有模型的qk層歸一化，提高了模型的穩定性和整體性能。
三階段預訓練：第一階段專注於廣泛的語言建模和通用知識獲取；第二階段提升推理能力，如STEM、編碼和邏輯推理；第三階段通過將訓練序列長度擴展到32k標記來增強長上下文理解能力。
基於縮放定律的超參數調整：通過對三階段預訓練流程進行全面的縮放定律研究，Qwen3分別為密集模型和MoE模型系統地調整關鍵超參數，如學習率調度器和批量大小，從而在不同模型規模下實現更好的訓練動態和最終性能。

模型概述

Qwen3-8B-Base具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練
參數數量	82億
非嵌入參數數量	69.5億
層數	36
注意力頭數量（GQA）	Q為32，KV為8
上下文長度	32768

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考博客、GitHub和文檔。

📚 詳細文檔

評估與性能

詳細的評估結果請參考📑 博客。

引用

如果您覺得我們的工作有幫助，請引用以下內容：

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

Unsloth Dynamic 2.0實現了卓越的準確性，優於其他領先的量化方法。