模型概述
模型特點
模型能力
使用案例
🚀 Qwen3-30B-A6B-16-Extreme GGUF模型
Qwen3-30B-A6B-16-Extreme GGUF模型是基於特定技術生成的模型,在超低比特量化等方面有獨特優勢,適用於不同硬件和場景,同時提供了多種模型格式供用戶根據需求選擇。
🚀 快速開始
本模型可用於文本生成任務,具有32k上下文、推理、思考等特性,基於Qwen/Qwen3 - 30B - A3B - Base模型生成。
✨ 主要特性
- 超低比特量化:採用IQ - DynamicGate(1 - 2比特)的最新量化方法,在Llama - 3 - 8B上經基準測試證明有改進,通過特定層策略在保持極端內存效率的同時保留準確性。
- 多模型格式:提供多種模型格式,如BF16、F16、量化模型(Q4_K、Q6_K等)和超低比特量化模型(IQ3_XS等),以滿足不同硬件和場景需求。
- 多專家設置:使用16個專家(默認8個)處理提示,可用於更復雜的任務,但會降低每秒令牌速度。
📦 安裝指南
文檔未提及具體安裝步驟,暫無法提供。
💻 使用示例
基礎用法
在測試模型時,可選擇不同的AI助手類型進行操作,示例命令如下:
1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!
📚 詳細文檔
模型生成細節
本模型使用llama.cpp在提交版本92ecdcc0
時生成。
超低比特量化(IQ - DynamicGate,1 - 2比特)
基準測試環境
所有測試在Llama - 3 - 8B - Instruct上進行,使用標準困惑度評估管道、2048令牌上下文窗口,且所有量化使用相同提示集。
方法
- 動態精度分配:前/後25%的層採用IQ4_XS(選定層),中間50%採用IQ2_XXS/IQ3_S以提高效率。
- 關鍵組件保護:嵌入層/輸出層使用Q5_K,與標準1 - 2比特量化相比,可減少38%的誤差傳播。
量化性能比較(Llama - 3 - 8B)
量化方式 | 標準困惑度(PPL) | DynamicGate困惑度(PPL) | PPL變化率 | 標準大小 | DG大小 | 大小變化 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵改進
- IQ1_M:困惑度大幅降低43.9%(從27.46降至15.41)。
- IQ2_S:困惑度降低36.9%,僅增加0.2GB大小。
- IQ1_S:儘管是1比特量化,但仍保持39.7%的更高準確性。
權衡
所有變體的大小有適度增加(0.1 - 0.3GB),推理速度相當(差異<5%)。
使用場景
- 適應GPU顯存
- 內存受限的部署
- 可容忍1 - 2比特誤差的CPU和邊緣設備
- 超低比特量化研究
選擇正確的模型格式
選擇正確的模型格式取決於硬件能力和內存限制,具體如下:
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理且減少內存使用 |
F16 | 高 | 高 | 支持FP16的設備 | 當BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中等 | 適中 | 內存較多的CPU | 量化模型中在保證一定準確性的同時仍有較好表現 |
Q8_0 | 高 | 適中 | 有足夠顯存的CPU或GPU | 量化模型中準確性最佳 |
IQ3_XS | 極低 | 極低 | 超低內存設備 | 極致內存效率但準確性低 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備進行優化 |
包含文件及詳情
Qwen3-30B-A6B-16-Extreme-bf16.gguf
:模型權重保存為BF16格式,適用於將模型重新量化為其他格式,設備支持BF16加速時最佳。Qwen3-30B-A6B-16-Extreme-f16.gguf
:模型權重保存為F16格式,設備支持FP16(尤其是BF16不可用時)使用。Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf
:輸出和嵌入層保持BF16格式,其他層量化為Q8_0,設備支持BF16且需要量化版本時使用。Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf
:輸出和嵌入層保持F16格式,其他層量化為Q8_0。Qwen3-30B-A6B-16-Extreme-q4_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q4_K,適用於內存受限的CPU推理。Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf
:最小的Q4_K變體,以犧牲準確性為代價減少內存使用,適用於極低內存設置。Qwen3-30B-A6B-16-Extreme-q6_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q6_K。Qwen3-30B-A6B-16-Extreme-q8_0.gguf
:完全Q8量化模型,準確性更高,但需要更多內存。Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf
:IQ3_XS量化,針對極致內存效率進行優化,適用於超低內存設備。Qwen3-30B-A6B-16-Extreme-iq3_m.gguf
:IQ3_M量化,提供中等塊大小以提高準確性,適用於低內存設備。Qwen3-30B-A6B-16-Extreme-q4_0.gguf
:純Q4_0量化,針對ARM設備優化,適用於基於ARM的設備或低內存環境,若追求更高準確性可優先選擇IQ4_NL。
模型測試相關
測試說明
如果覺得這些模型有用,請點贊。同時可幫助測試AI驅動的網絡監控助手,進行量子就緒安全檢查,測試鏈接為Quantum Network Monitor。
測試方法
選擇AI助手類型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Hugginface開源)TestLLM
(僅支持CPU的實驗性模型)
測試內容
推動小型開源模型在AI網絡監控方面的極限,具體包括:
- 針對即時網絡服務進行函數調用
- 探索模型在處理自動化Nmap掃描、量子就緒檢查和網絡監控任務時的最小規模
不同助手特點
- TestLLM:當前實驗性模型(llama.cpp在2個CPU線程上運行),零配置設置,加載時間約30秒(推理慢但無API成本),尋求邊緣設備AI相關的合作。
- TurboLLM:使用gpt - 4o - mini進行創建自定義命令處理器以在量子網絡監控代理上運行.net代碼、即時網絡診斷和監控、安全審計、滲透測試(Nmap/Metasploit)等任務。
- HugLLM:基於最新的開源模型,在Hugging Face推理API上運行。
示例生成
示例參數
Temp 1.2,rep pen 1.06,rep pen range 64,topk 100,topp .95,minp .05
測試環境
Q4KS [非Imatrix],僅CPU(Windows 11),LMSTUDIO,速度為11 T/S(無GPU卸載)。這是一箇中級量化,預計Imatrix Q4KS、更高量化或全精度模型會有更強性能。
提示示例
Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.
重要說明
- 由於該模型的獨特性質(MOE、大小、激活專家、專家大小),GGUF量化可以在CPU、GPU上運行,或進行GPU部分“卸載”,直至全精度運行。
- 該模型難以進行Imatrix操作,需要更大的Imatrix文件/多語言/多內容。
- GPU速度比僅CPU速度快4 - 8倍或更高,相對於其他“30B”模型,該模型的令牌每秒速度大致相當於“6B”普通模型的速度。
系統角色設置
可根據需要設置系統角色,示例如下:
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
模型性能優化
無論模型類別如何,該文檔https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters都詳細介紹了增強模型操作的方法。對於Class 3/4模型,需要正確設置默認參數、採樣器和高級採樣器以確保正確使用。
其他版本
- 4專家版本:https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed
- 12專家版本:https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks
- 16專家,128k上下文版本:https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context
- 24專家版本:https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm
最終說明
模型創建和量子網絡監控項目的代碼均為開源,可在https://github.com/Mungert69查看。如果認可該工作,可考慮購買咖啡支持,同時也尋求工作機會或贊助。



