Qwen3-235B-A22B-GGUF開源大語言模型 - 多能力突破支持多語言問答

首頁

Qwen3 235B A22B GGUF

由Qwen開發

Qwen3是通義千問系列大語言模型的最新版本，提供稠密模型與混合專家（MoE）模型的完整套件。基於海量訓練數據，Qwen3在推理能力、指令遵循、智能體功能及多語言支持方面實現突破性進展。

大型語言模型開源協議:Apache-2.0 #思維模式切換 #235B混合專家 #32K長文本處理

下載量 1,576

發布時間 : 5/11/2025

模型概述

Qwen3-235B-A22B是一個235B參數量的混合專家（MoE）模型，激活參數量為22B。它支持思維模式與非思維模式的無縫切換，具備強大的推理能力、多語言支持和智能體功能。

模型特點

思維模式與非思維模式切換

支持複雜邏輯推理、數學與編程的思維模式與高效通用對話的非思維模式無縫切換

增強的推理能力

在數學解題、代碼生成與常識邏輯推理方面超越前代模型

人類偏好對齊

在創意寫作、角色扮演、多輪對話及指令遵循方面表現優異

智能體功能

支持與外部工具的精準集成，在複雜智能體任務中保持領先性能

多語言支持

支持100+種語言與方言，具備強大的多語言指令遵循與翻譯能力

模型能力

文本生成

複雜邏輯推理

數學解題

代碼生成

多語言翻譯

智能體任務處理

創意寫作

角色扮演

使用案例

教育

數學解題

幫助學生逐步解決複雜的數學問題

提供詳細的解題步驟和最終答案

編程學習

生成代碼示例並解釋編程概念

幫助學習者理解編程邏輯

商業

多語言客服

提供多語言的客戶服務對話

支持100+種語言的客戶諮詢

商業智能分析

分析商業數據並提供見解

生成商業報告和建議

娛樂

創意寫作

生成故事、詩歌等創意內容

提供引人入勝的創意作品

角色扮演

與用戶進行沉浸式角色扮演對話

創造生動的互動體驗

🚀 Qwen3-235B-A22B-GGUF

Qwen3-235B-A22B-GGUF 是 Qwen 系列大語言模型的重要成果，具備強大的推理、多語言支持等能力，能在多種場景下提供優質的對話體驗。

🚀 快速開始

llama.cpp

更多使用指南請查看我們的 llama.cpp 文檔。

建議你克隆 llama.cpp 並按照官方指南進行安裝，我們採用的是 llama.cpp 的最新版本。在以下演示中，假設你在 llama.cpp 倉庫下運行命令。

克隆倉庫可能效率不高，因此你可以手動下載所需的 GGUF 文件，或者使用 huggingface-cli（pip install huggingface_hub），如下所示：

huggingface-cli download Qwen/Qwen3-235B-A22B-GGUF Q4_K_M/Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf --local-dir . --local-dir-use-symlinks False

然而，由於單個文件上傳限制為 50G，大文件會被拆分成多個片段。具體來說，拆分後的文件有相同的前綴，後綴表示其索引。例如，Q4_K_M 的 GGUF 文件如下：

Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00002-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00003-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00004-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00005-of-00005.gguf

它們的前綴為 Qwen3-235B-A22B-Q4_K_M，後綴用於索引。要使用拆分後的 GGUF 文件，需要先使用 llama-gguf-split 命令進行合併，如下所示：

./llama-gguf-split --merge Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf Qwen3-235B-A22B-Q4_K_M.gguf

✨ 主要特性

Qwen3 亮點

Qwen3 是 Qwen 系列的最新一代大語言模型，提供了一套全面的密集模型和混合專家（MoE）模型。經過大量訓練，Qwen3 在推理、指令遵循、智能體能力和多語言支持方面取得了突破性進展，具有以下關鍵特性：

單模型內獨特支持思維模式（用於複雜邏輯推理、數學和編碼）和非思維模式（用於高效通用對話）的無縫切換，確保在各種場景下都能實現最佳性能。
推理能力顯著增強，在數學、代碼生成和常識邏輯推理方面超越了之前的 QwQ（思維模式）和 Qwen2.5 指令模型（非思維模式）。
高度符合人類偏好，在創意寫作、角色扮演、多輪對話和指令遵循方面表現出色，提供更自然、引人入勝和沉浸式的對話體驗。
具備強大的智能體能力，能夠在思維和非思維模式下與外部工具精確集成，在複雜的基於智能體的任務中在開源模型中處於領先地位。
支持 100 多種語言和方言，具備強大的多語言指令遵循和翻譯能力。

📦 安裝指南

請參考上述快速開始部分的 llama.cpp 安裝步驟。

💻 使用示例

思維模式和非思維模式切換

你可以在用戶提示或系統消息中添加 /think 和 /no_think 來逐輪切換模型的思維模式。在多輪對話中，模型將遵循最新的指令。

以下是一個多輪對話示例：

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

處理長文本

Qwen3 原生支持長達 32,768 個標記的上下文長度。對於總長度（包括輸入和輸出）顯著超過此限制的對話，建議使用 RoPE 縮放技術來有效處理長文本。我們使用 YaRN 方法驗證了模型在長達 131,072 個標記的上下文長度上的性能。

在 llama.cpp 中啟用 YARN：

./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

最佳實踐

為了實現最佳性能，建議採用以下設置：

採樣參數：
- 對於思維模式（enable_thinking=True），使用 Temperature=0.6，TopP=0.95，TopK=20，MinP=0，PresencePenalty=1.5。請勿使用貪心解碼，因為這可能導致性能下降和無限重複。
- 對於非思維模式（enable_thinking=False），建議使用 Temperature=0.7，TopP=0.8，TopK=20，MinP=0，PresencePenalty=1.5。
- 建議將量化模型的 presence_penalty 設置為 1.5 以抑制重複輸出。你可以在 0 到 2 之間調整 presence_penalty 參數。較高的值可能偶爾導致語言混合和模型性能略有下降。
足夠的輸出長度：對於大多數查詢，建議使用 32,768 個標記的輸出長度。對於高度複雜問題的基準測試，如數學和編程競賽中的問題，建議將最大輸出長度設置為 38,912 個標記。這為模型提供了足夠的空間來生成詳細和全面的響應，從而提高其整體性能。
標準化輸出格式：在進行基準測試時，建議使用提示來標準化模型輸出。
- 數學問題：在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多項選擇題：在提示中添加以下 JSON 結構以標準化響應："Please show your choice in the answer field with only the choice letter, e.g., "answer": "C"."
歷史記錄中不包含思維內容：在多輪對話中，歷史模型輸出應僅包括最終輸出部分，不需要包括思維內容。這在提供的 Jinja2 聊天模板中已經實現。然而，對於不直接使用 Jinja2 聊天模板的框架，開發者需要確保遵循最佳實踐。

📚 詳細文檔

有關更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub 和文檔。

🔧 技術細節

模型概述

Qwen3-235B-A22B 具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練和後訓練
參數數量	總共 235B，激活 22B
參數數量（非嵌入）	234B
層數	94
注意力頭數量（GQA）	Q 為 64，KV 為 4
專家數量	128
激活專家數量	8
上下文長度	原生 32,768，使用 YaRN 可達 131,072 個標記
量化	q4_K_M, q5_0, q5_K_M, q6_K, q8_0

📄 許可證

本項目採用 Apache-2.0 許可證。

引用

如果你覺得我們的工作有幫助，請引用我們：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}

⚠️ 重要提示 所有著名的開源框架都實現了靜態 YaRN，這意味著縮放因子無論輸入長度如何都保持不變，可能會影響較短文本的性能。建議僅在需要處理長上下文時添加 rope_scaling 配置。也建議根據需要修改 factor。例如，如果你的應用程序的典型上下文長度為 65,536 個標記，最好將 factor 設置為 2.0。