🚀 Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - AKA: "Punch IT!"
這是一個基於Qwen的“Qwen 30B - A3B”(混合專家模型,MOE)的微調模型,將使用的專家數量從8個減少到4個(總共128個專家)。這種方法幾乎使模型速度提高了一倍,並且使用1.5B(30B中的)參數,而不是3B(30B中的)參數。根據應用場景,你可能希望使用常規模型(“30B - A3B”),而將此模型用於更簡單的用例。不過,在日常(但並非廣泛)測試中,我並未發現功能有任何損失。
🚀 快速開始
本模型支持多種語言,包括英語、法語、德語、西班牙語、葡萄牙語、意大利語、日語、韓語、俄語、中文、阿拉伯語、波斯語、印尼語、馬來語、尼泊爾語、波蘭語、羅馬尼亞語、塞爾維亞語、瑞典語、土耳其語、烏克蘭語、越南語、印地語和孟加拉語。它適用於文本生成任務,具有64k上下文、高速、適用於所有用例、富有創造力等特點。
✨ 主要特性
- 多語言支持:支持24種語言,包括英語、法語、德語等。
- 高速運行:通過調整專家使用數量,接近使模型速度翻倍。
- 64k上下文:擴展了上下文長度至64k(65535)。
- 多種使用場景:適用於創意寫作、角色扮演、問題解決等各種場景。
- 多種量化版本:提供多種量化尺寸版本,各有特點。
📦 安裝指南
文檔未提供具體安裝步驟,可參考原始模型卡片 [https://huggingface.co/Qwen/Qwen3 - 30B - A3B](https://huggingface.co/Qwen/Qwen3 - 30B - A3B) 獲取詳細信息。
💻 使用示例
基礎用法
使用Jinja模板或CHATML模板進行文本生成。以下是一個使用4個專家的示例生成(Q4KS,CPU):
Temp 1.2, rep pen 1.06, rep pen range 64, topk 100, topp .95, minp .05
Q4KS [non - imatrix], CPU only (windows 11), LMSTUDIO.
高級用法
對於更復雜的用例,可能受益於使用常規版本和/或12、16或24個專家的版本:
- [12個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A4.5B - 12 - Cooks)
- [16個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme)
- [16個專家,128k上下文版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme - 128k - context)
- [24個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A7.5B - 24 - Grand - Brainstorm)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於Qwen的“Qwen 30B - A3B”(MOE)的微調模型 |
基礎模型 |
DavidAU/Qwen3 - 30B - A1.5B - High - Speed |
上下文大小 |
64K(65535) |
量化版本特點
- IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本:IQ2s表現良好。
- Q2K/Q2KS:僅在CPU/RAM上使用時速度更快,但性能低於IQ2s。
- Q3Ks:僅在CPU/RAM上使用時稍快,但性能低於IQ3s。
- IQ3s及更高量化版本:與IQ2s、IQ1s和Q2s/Q3s相比,性能有很大提升,IQ4_XS/IQ4_NL在NEO Imatrix效果和特定質量方面達到峰值。
- Q4s:高性能,但IQ4XS/IQ4NL與之接近甚至可能超越。
- Q5s:非常高性能。
- Q6:性能達到峰值,但NEO imatrix效果最小。
注意事項
- IQ3s性能優於Q3s量化版本,IQ2s優於Q2s量化版本。
- IQ4_XS / IQ4_NL性能與Q4s相當或更優。
- IQ3_S / IQ3_M非常強大,可用於大多數任務。
- 所有Imatrix版本的量化版本性能優於非Imatrix版本。
- “Q”量化版本通常比IQ量化版本更快(每秒令牌數),尤其是在CPU/RAM上運行時。
- 在某些配置下,Q2_K / Q2K_S(僅CPU/RAM操作)比IQ2/IQ3快25% - 100%。
- GPU速度比僅CPU速度快4 - 8倍或更高,相對於其他“30B”模型,此模型速度也非常快(每秒令牌速度大致相當於1.5B“普通”模型速度)。
可選系統角色
你可能需要設置以下系統角色,儘管大多數情況下Qwen3s會自行生成推理/思考模塊:
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
有關如何在各種LLM/AI應用中“設置”系統角色,請參閱文檔“Maximizing - Model - Performance - All...”。
高質量設置/最佳操作指南/參數和採樣器
如果你要使用此模型(源模型、GGUF或其他量化版本),請查看文檔 [https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters) 以獲取關鍵參數、採樣器和高級採樣器設置。該文檔不僅適用於此模型,還可用於任何模型、任何倉庫、任何量化版本(包括源代碼操作),以增強模型的操作性能。
🔧 技術細節
本模型通過將使用的專家數量從8個減少到4個(總共128個專家),接近使模型速度翻倍,並使用1.5B(30B中的)參數。GGUF NEO Imatrix ggufs根據Qwen技術說明使用“YARN”將上下文擴展到64k(65535)。NEO Imatrix數據集是在測試和評估了50多個Imatrix數據集並進行大量調整後內部開發的。量化(和特定的Imatrix處理)是專門為Qwen3 30B - A1.5B模型設計的,並使用了LLamacpp(2025年4月15日 / B5127及以後)的最新更改來定製量化結構本身。
📄 許可證
文檔未提及許可證信息。
⚠️ 重要提示
所有此模型的量化版本由於其獨特的結構,可僅在GPU和/或CPU/RAM上使用。不同量化尺寸版本具有特殊功能。
💡 使用建議
對於更復雜的用例,可考慮使用常規版本或更多專家的版本;在使用模型時,務必查看相關文檔以獲取最佳參數和採樣器設置。