Qwen3-30B-A6B-16-Extreme-GGUF开源模型 - 多硬件适用，支持32k上下文长度

首页

Qwen3 30B A6B 16 Extreme GGUF

由 Mungert 开发

基于Qwen/Qwen3-30B-A3B-Base生成的超低比特量化模型，支持32k上下文长度，适用于多种硬件环境

大型语言模型

Transformers

#超低比特量化 #多专家系统 #内存高效推理

下载量 1,321

发布时间 : 5/23/2025

模型简介

采用IQ-DynamicGate量化技术的多专家模型，提供多种量化格式选择，平衡内存效率与推理准确性

模型特点

超低比特量化

采用IQ-DynamicGate(1-2比特)量化方法，在保持内存效率的同时显著降低困惑度

多专家设置

使用16个专家处理提示，可应对更复杂任务（默认8个专家）

多格式支持

提供BF16/F16/多种量化格式(Q4_K/Q6_K/IQ3_XS等)以适应不同硬件需求

长上下文支持

支持32k令牌的上下文长度，适合处理长文档和复杂推理

模型能力

文本生成

复杂推理

安全审计

网络监控分析

量子加密检查

使用案例

网络安全

SSL证书检查

分析网站SSL证书安全性

量子安全加密验证

检查服务器是否使用量子安全加密通信

系统管理

服务器安全审计

执行全面的服务器安全评估

环境科学

全球降温方案分析

解释利用夜间辐射冷却降低全球温度的方法

🚀 Qwen3-30B-A6B-16-Extreme GGUF模型

Qwen3-30B-A6B-16-Extreme GGUF模型是基于特定技术生成的模型，在超低比特量化等方面有独特优势，适用于不同硬件和场景，同时提供了多种模型格式供用户根据需求选择。

🚀 快速开始

本模型可用于文本生成任务，具有32k上下文、推理、思考等特性，基于Qwen/Qwen3 - 30B - A3B - Base模型生成。

✨ 主要特性

超低比特量化：采用IQ - DynamicGate（1 - 2比特）的最新量化方法，在Llama - 3 - 8B上经基准测试证明有改进，通过特定层策略在保持极端内存效率的同时保留准确性。
多模型格式：提供多种模型格式，如BF16、F16、量化模型（Q4_K、Q6_K等）和超低比特量化模型（IQ3_XS等），以满足不同硬件和场景需求。
多专家设置：使用16个专家（默认8个）处理提示，可用于更复杂的任务，但会降低每秒令牌速度。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

在测试模型时，可选择不同的AI助手类型进行操作，示例命令如下：

1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!

📚 详细文档

模型生成细节

本模型使用llama.cpp在提交版本92ecdcc0时生成。

超低比特量化（IQ - DynamicGate，1 - 2比特）

基准测试环境

所有测试在Llama - 3 - 8B - Instruct上进行，使用标准困惑度评估管道、2048令牌上下文窗口，且所有量化使用相同提示集。

方法

动态精度分配：前/后25%的层采用IQ4_XS（选定层），中间50%采用IQ2_XXS/IQ3_S以提高效率。
关键组件保护：嵌入层/输出层使用Q5_K，与标准1 - 2比特量化相比，可减少38%的误差传播。

量化性能比较（Llama - 3 - 8B）

量化方式	标准困惑度（PPL）	DynamicGate困惑度（PPL）	PPL变化率	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键改进

IQ1_M：困惑度大幅降低43.9%（从27.46降至15.41）。
IQ2_S：困惑度降低36.9%，仅增加0.2GB大小。
IQ1_S：尽管是1比特量化，但仍保持39.7%的更高准确性。

权衡

所有变体的大小有适度增加（0.1 - 0.3GB），推理速度相当（差异<5%）。

使用场景

适应GPU显存
内存受限的部署
可容忍1 - 2比特误差的CPU和边缘设备
超低比特量化研究

选择正确的模型格式

选择正确的模型格式取决于硬件能力和内存限制，具体如下：

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	高速推理且减少内存使用
F16	高	高	支持FP16的设备	当BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境的最佳选择
Q6_K	中等	适中	内存较多的CPU	量化模型中在保证一定准确性的同时仍有较好表现
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中准确性最佳
IQ3_XS	极低	极低	超低内存设备	极致内存效率但准确性低
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

包含文件及详情

Qwen3-30B-A6B-16-Extreme-bf16.gguf：模型权重保存为BF16格式，适用于将模型重新量化为其他格式，设备支持BF16加速时最佳。
Qwen3-30B-A6B-16-Extreme-f16.gguf：模型权重保存为F16格式，设备支持FP16（尤其是BF16不可用时）使用。
Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf：输出和嵌入层保持BF16格式，其他层量化为Q8_0，设备支持BF16且需要量化版本时使用。
Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf：输出和嵌入层保持F16格式，其他层量化为Q8_0。
Qwen3-30B-A6B-16-Extreme-q4_k.gguf：输出和嵌入层量化为Q8_0，其他层量化为Q4_K，适用于内存受限的CPU推理。
Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf：最小的Q4_K变体，以牺牲准确性为代价减少内存使用，适用于极低内存设置。
Qwen3-30B-A6B-16-Extreme-q6_k.gguf：输出和嵌入层量化为Q8_0，其他层量化为Q6_K。
Qwen3-30B-A6B-16-Extreme-q8_0.gguf：完全Q8量化模型，准确性更高，但需要更多内存。
Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf：IQ3_XS量化，针对极致内存效率进行优化，适用于超低内存设备。
Qwen3-30B-A6B-16-Extreme-iq3_m.gguf：IQ3_M量化，提供中等块大小以提高准确性，适用于低内存设备。
Qwen3-30B-A6B-16-Extreme-q4_0.gguf：纯Q4_0量化，针对ARM设备优化，适用于基于ARM的设备或低内存环境，若追求更高准确性可优先选择IQ4_NL。

模型测试相关

测试说明

如果觉得这些模型有用，请点赞。同时可帮助测试AI驱动的网络监控助手，进行量子就绪安全检查，测试链接为Quantum Network Monitor。

测试方法

选择AI助手类型：

TurboLLM（GPT - 4o - mini）
HugLLM（Hugginface开源）
TestLLM（仅支持CPU的实验性模型）

测试内容

推动小型开源模型在AI网络监控方面的极限，具体包括：

针对实时网络服务进行函数调用
探索模型在处理自动化Nmap扫描、量子就绪检查和网络监控任务时的最小规模

不同助手特点

TestLLM：当前实验性模型（llama.cpp在2个CPU线程上运行），零配置设置，加载时间约30秒（推理慢但无API成本），寻求边缘设备AI相关的合作。
TurboLLM：使用gpt - 4o - mini进行创建自定义命令处理器以在量子网络监控代理上运行.net代码、实时网络诊断和监控、安全审计、渗透测试（Nmap/Metasploit）等任务。
HugLLM：基于最新的开源模型，在Hugging Face推理API上运行。

示例生成

示例参数

Temp 1.2，rep pen 1.06，rep pen range 64，topk 100，topp .95，minp .05

测试环境

Q4KS [非Imatrix]，仅CPU（Windows 11），LMSTUDIO，速度为11 T/S（无GPU卸载）。这是一个中级量化，预计Imatrix Q4KS、更高量化或全精度模型会有更强性能。

提示示例

Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.

重要说明

由于该模型的独特性质（MOE、大小、激活专家、专家大小），GGUF量化可以在CPU、GPU上运行，或进行GPU部分“卸载”，直至全精度运行。
该模型难以进行Imatrix操作，需要更大的Imatrix文件/多语言/多内容。
GPU速度比仅CPU速度快4 - 8倍或更高，相对于其他“30B”模型，该模型的令牌每秒速度大致相当于“6B”普通模型的速度。

系统角色设置

可根据需要设置系统角色，示例如下：

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

具体设置方法可参考文档https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters。

模型性能优化

无论模型类别如何，该文档https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters都详细介绍了增强模型操作的方法。对于Class 3/4模型，需要正确设置默认参数、采样器和高级采样器以确保正确使用。