Qwen3-0.6B-GGUF開源大語言模型 - 多語言支持與智能推理免費部署

首頁

Qwen3 0.6B GGUF

由Qwen開發

Qwen3是通義千問系列最新一代大語言模型，提供完整稠密模型與混合專家（MoE）架構。經過海量訓練，Qwen3在推理、指令遵循、智能體能力和多語言支持方面實現突破性進展。

大型語言模型開源協議:Apache-2.0 #思維模式切換 #32K長文本推理 #多語言智能體

下載量 2,511

發布時間 : 5/5/2025

模型概述

Qwen3-0.6B是一個0.6B參數的因果語言模型，支持文本生成任務，具備強大的推理、指令遵循和多語言能力。

模型特點

獨創思維模式切換

支持在思維模式（複雜邏輯推理/數學/編程）與非思維模式（高效通用對話）間無縫切換，確保各類場景最優表現。

顯著增強推理能力

在數學、代碼生成和常識邏輯推理方面，超越前代QwQ（思維模式）與Qwen2.5指令模型（非思維模式）。

卓越的人類偏好對齊

在創意寫作、角色扮演、多輪對話和指令遵循方面表現優異，提供更自然、沉浸的對話體驗。

專業智能體能力

精準對接外部工具（思維/非思維模式皆可），在複雜智能體任務中保持開源模型領先性能。

多語言支持

支持100+種語言與方言，具備強大的多語言指令遵循與翻譯能力。

模型能力

文本生成

複雜邏輯推理

數學計算

代碼生成

多輪對話

多語言翻譯

智能體任務處理

使用案例

教育與學習

數學問題解答

解決複雜的數學問題，提供逐步推理過程。

準確解答數學問題，包括最終答案和推理步驟。

編程輔助

代碼生成

根據用戶需求生成代碼片段或完整程序。

生成符合需求的代碼，提高開發效率。

創意寫作

故事創作

根據用戶提示生成創意故事或文章。

生成富有創意的文本內容，提供沉浸式閱讀體驗。

🚀 Qwen3-0.6B-GGUF

Qwen3-0.6B-GGUF是Qwen系列最新一代大語言模型的特定版本，具備多種強大特性，支持多語言，能在不同模式下高效運行，為用戶提供優質的語言交互體驗。

🚀 快速開始

llama.cpp

更多使用指南請查看我們的 llama.cpp 文檔。

建議你克隆 llama.cpp 並按照官方指南進行安裝，我們採用的是 llama.cpp 的最新版本。在以下示例中，假設你在 llama.cpp 倉庫下運行命令：

./llama-cli -hf Qwen/Qwen3-0.6B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift

ollama

更多使用指南請查看我們的 ollama 文檔。

你可以使用以下命令運行 Qwen3：

ollama run hf.co/Qwen/Qwen3-0.6B-GGUF:Q8_0

✨ 主要特性

Qwen3 亮點

Qwen3 是 Qwen 系列的最新一代大語言模型，提供了一套全面的密集模型和專家混合（MoE）模型。經過大量訓練，Qwen3 在推理、指令遵循、智能體能力和多語言支持方面取得了突破性進展，具有以下關鍵特性：

獨特支持單模型內思維模式（用於複雜邏輯推理、數學和編碼）和非思維模式（用於高效通用對話）的無縫切換，確保在各種場景下都能實現最佳性能。
推理能力顯著增強，在數學、代碼生成和常識邏輯推理方面超越了之前的 QwQ（思維模式下）和 Qwen2.5 指令模型（非思維模式下）。
高度符合人類偏好，在創意寫作、角色扮演、多輪對話和指令遵循方面表現出色，提供更自然、引人入勝和沉浸式的對話體驗。
具備強大的智能體能力，能夠在思維和非思維模式下與外部工具精確集成，在複雜的基於智能體的任務中在開源模型中取得領先性能。
支持 100 多種語言和方言，具備強大的多語言指令遵循和翻譯能力。

模型概述

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練和後訓練
參數數量	0.6B
非嵌入參數數量	0.44B
層數	28
注意力頭數量（GQA）	Q 為 16，KV 為 8
上下文長度	32,768
量化方式	q8_0

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考我們的博客、GitHub 和文檔。

💻 使用示例

思維模式與非思維模式切換

你可以在用戶提示或系統消息中添加 /think 和 /no_think 來逐輪切換模型的思維模式。在多輪對話中，模型將遵循最新的指令。以下是一個多輪對話示例：

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

📚 詳細文檔

最佳實踐

為了實現最佳性能，我們建議採用以下設置：

採樣參數：
- 對於思維模式（enable_thinking=True），使用 Temperature=0.6、TopP=0.95、TopK=20、MinP=0 和 PresencePenalty=1.5。請勿使用貪心解碼，因為這可能導致性能下降和無限重複。
- 對於非思維模式（enable_thinking=False），建議使用 Temperature=0.7、TopP=0.8、TopK=20、MinP=0 和 PresencePenalty=1.5。
- 對於量化模型，建議將 presence_penalty 設置為 1.5 以抑制重複輸出。你可以在 0 到 2 之間調整 presence_penalty 參數。較高的值偶爾可能導致語言混合和模型性能略有下降。
足夠的輸出長度：對於大多數查詢，建議使用 32,768 個標記的輸出長度。對於高度複雜問題的基準測試，如數學和編程競賽中的問題，建議將最大輸出長度設置為 38,912 個標記。這為模型提供了足夠的空間來生成詳細和全面的響應，從而提高其整體性能。
標準化輸出格式：在進行基準測試時，建議使用提示來標準化模型輸出。
- 數學問題：在提示中包含 “Please reason step by step, and put your final answer within \boxed{}.”。
- 多項選擇題：在提示中添加以下 JSON 結構以標準化響應：“Please show your choice in the answer field with only the choice letter, e.g., "answer": "C".”
歷史記錄中無思維內容：在多輪對話中，歷史模型輸出應僅包含最終輸出部分，無需包含思維內容。這在提供的 Jinja2 聊天模板中已實現。但是，對於不直接使用 Jinja2 聊天模板的框架，開發者需要確保遵循此最佳實踐。

引用

如果您覺得我們的工作有幫助，請隨意引用：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}