Qwen3-30B-A6B-16-Extreme-GGUF開源模型 - 多硬件適用，支持32k上下文長度

首頁

Qwen3 30B A6B 16 Extreme GGUF

由Mungert開發

基於Qwen/Qwen3-30B-A3B-Base生成的超低比特量化模型，支持32k上下文長度，適用於多種硬件環境

大型語言模型

Transformers

#超低比特量化 #多專家系統 #內存高效推理

下載量 1,321

發布時間 : 5/23/2025

模型概述

採用IQ-DynamicGate量化技術的多專家模型，提供多種量化格式選擇，平衡內存效率與推理準確性

模型特點

超低比特量化

採用IQ-DynamicGate(1-2比特)量化方法，在保持內存效率的同時顯著降低困惑度

多專家設置

使用16個專家處理提示，可應對更復雜任務（默認8個專家）

多格式支持

提供BF16/F16/多種量化格式(Q4_K/Q6_K/IQ3_XS等)以適應不同硬件需求

長上下文支持

支持32k令牌的上下文長度，適合處理長文檔和複雜推理

模型能力

文本生成

複雜推理

安全審計

網絡監控分析

量子加密檢查

使用案例

網絡安全

SSL證書檢查

分析網站SSL證書安全性

量子安全加密驗證

檢查服務器是否使用量子安全加密通信

系統管理

服務器安全審計

執行全面的服務器安全評估

環境科學

全球降溫方案分析

解釋利用夜間輻射冷卻降低全球溫度的方法

🚀 Qwen3-30B-A6B-16-Extreme GGUF模型

Qwen3-30B-A6B-16-Extreme GGUF模型是基於特定技術生成的模型，在超低比特量化等方面有獨特優勢，適用於不同硬件和場景，同時提供了多種模型格式供用戶根據需求選擇。

🚀 快速開始

本模型可用於文本生成任務，具有32k上下文、推理、思考等特性，基於Qwen/Qwen3 - 30B - A3B - Base模型生成。

✨ 主要特性

超低比特量化：採用IQ - DynamicGate（1 - 2比特）的最新量化方法，在Llama - 3 - 8B上經基準測試證明有改進，通過特定層策略在保持極端內存效率的同時保留準確性。
多模型格式：提供多種模型格式，如BF16、F16、量化模型（Q4_K、Q6_K等）和超低比特量化模型（IQ3_XS等），以滿足不同硬件和場景需求。
多專家設置：使用16個專家（默認8個）處理提示，可用於更復雜的任務，但會降低每秒令牌速度。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

在測試模型時，可選擇不同的AI助手類型進行操作，示例命令如下：

1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!

📚 詳細文檔

模型生成細節

本模型使用llama.cpp在提交版本92ecdcc0時生成。

超低比特量化（IQ - DynamicGate，1 - 2比特）

基準測試環境

所有測試在Llama - 3 - 8B - Instruct上進行，使用標準困惑度評估管道、2048令牌上下文窗口，且所有量化使用相同提示集。

方法

動態精度分配：前/後25%的層採用IQ4_XS（選定層），中間50%採用IQ2_XXS/IQ3_S以提高效率。
關鍵組件保護：嵌入層/輸出層使用Q5_K，與標準1 - 2比特量化相比，可減少38%的誤差傳播。

量化性能比較（Llama - 3 - 8B）

量化方式	標準困惑度（PPL）	DynamicGate困惑度（PPL）	PPL變化率	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵改進

IQ1_M：困惑度大幅降低43.9%（從27.46降至15.41）。
IQ2_S：困惑度降低36.9%，僅增加0.2GB大小。
IQ1_S：儘管是1比特量化，但仍保持39.7%的更高準確性。

權衡

所有變體的大小有適度增加（0.1 - 0.3GB），推理速度相當（差異<5%）。

使用場景

適應GPU顯存
內存受限的部署
可容忍1 - 2比特誤差的CPU和邊緣設備
超低比特量化研究

選擇正確的模型格式

選擇正確的模型格式取決於硬件能力和內存限制，具體如下：

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	高速推理且減少內存使用
F16	高	高	支持FP16的設備	當BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中等	適中	內存較多的CPU	量化模型中在保證一定準確性的同時仍有較好表現
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中準確性最佳
IQ3_XS	極低	極低	超低內存設備	極致內存效率但準確性低
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備進行優化

包含文件及詳情

Qwen3-30B-A6B-16-Extreme-bf16.gguf：模型權重保存為BF16格式，適用於將模型重新量化為其他格式，設備支持BF16加速時最佳。
Qwen3-30B-A6B-16-Extreme-f16.gguf：模型權重保存為F16格式，設備支持FP16（尤其是BF16不可用時）使用。
Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf：輸出和嵌入層保持BF16格式，其他層量化為Q8_0，設備支持BF16且需要量化版本時使用。
Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf：輸出和嵌入層保持F16格式，其他層量化為Q8_0。
Qwen3-30B-A6B-16-Extreme-q4_k.gguf：輸出和嵌入層量化為Q8_0，其他層量化為Q4_K，適用於內存受限的CPU推理。
Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf：最小的Q4_K變體，以犧牲準確性為代價減少內存使用，適用於極低內存設置。
Qwen3-30B-A6B-16-Extreme-q6_k.gguf：輸出和嵌入層量化為Q8_0，其他層量化為Q6_K。
Qwen3-30B-A6B-16-Extreme-q8_0.gguf：完全Q8量化模型，準確性更高，但需要更多內存。
Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf：IQ3_XS量化，針對極致內存效率進行優化，適用於超低內存設備。
Qwen3-30B-A6B-16-Extreme-iq3_m.gguf：IQ3_M量化，提供中等塊大小以提高準確性，適用於低內存設備。
Qwen3-30B-A6B-16-Extreme-q4_0.gguf：純Q4_0量化，針對ARM設備優化，適用於基於ARM的設備或低內存環境，若追求更高準確性可優先選擇IQ4_NL。

模型測試相關

測試說明

如果覺得這些模型有用，請點贊。同時可幫助測試AI驅動的網絡監控助手，進行量子就緒安全檢查，測試鏈接為Quantum Network Monitor。

測試方法

選擇AI助手類型：

TurboLLM（GPT - 4o - mini）
HugLLM（Hugginface開源）
TestLLM（僅支持CPU的實驗性模型）

測試內容

推動小型開源模型在AI網絡監控方面的極限，具體包括：

針對即時網絡服務進行函數調用
探索模型在處理自動化Nmap掃描、量子就緒檢查和網絡監控任務時的最小規模

不同助手特點

TestLLM：當前實驗性模型（llama.cpp在2個CPU線程上運行），零配置設置，加載時間約30秒（推理慢但無API成本），尋求邊緣設備AI相關的合作。
TurboLLM：使用gpt - 4o - mini進行創建自定義命令處理器以在量子網絡監控代理上運行.net代碼、即時網絡診斷和監控、安全審計、滲透測試（Nmap/Metasploit）等任務。
HugLLM：基於最新的開源模型，在Hugging Face推理API上運行。

示例生成

示例參數

Temp 1.2，rep pen 1.06，rep pen range 64，topk 100，topp .95，minp .05

測試環境

Q4KS [非Imatrix]，僅CPU（Windows 11），LMSTUDIO，速度為11 T/S（無GPU卸載）。這是一箇中級量化，預計Imatrix Q4KS、更高量化或全精度模型會有更強性能。

提示示例

Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.

重要說明

由於該模型的獨特性質（MOE、大小、激活專家、專家大小），GGUF量化可以在CPU、GPU上運行，或進行GPU部分“卸載”，直至全精度運行。
該模型難以進行Imatrix操作，需要更大的Imatrix文件/多語言/多內容。
GPU速度比僅CPU速度快4 - 8倍或更高，相對於其他“30B”模型，該模型的令牌每秒速度大致相當於“6B”普通模型的速度。

系統角色設置

可根據需要設置系統角色，示例如下：

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

具體設置方法可參考文檔https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters。

模型性能優化

無論模型類別如何，該文檔https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters都詳細介紹了增強模型操作的方法。對於Class 3/4模型，需要正確設置默認參數、採樣器和高級採樣器以確保正確使用。