模型简介
模型特点
模型能力
使用案例
🚀 Qwen3-30B-A6B-16-Extreme GGUF模型
Qwen3-30B-A6B-16-Extreme GGUF模型是基于特定技术生成的模型,在超低比特量化等方面有独特优势,适用于不同硬件和场景,同时提供了多种模型格式供用户根据需求选择。
🚀 快速开始
本模型可用于文本生成任务,具有32k上下文、推理、思考等特性,基于Qwen/Qwen3 - 30B - A3B - Base模型生成。
✨ 主要特性
- 超低比特量化:采用IQ - DynamicGate(1 - 2比特)的最新量化方法,在Llama - 3 - 8B上经基准测试证明有改进,通过特定层策略在保持极端内存效率的同时保留准确性。
- 多模型格式:提供多种模型格式,如BF16、F16、量化模型(Q4_K、Q6_K等)和超低比特量化模型(IQ3_XS等),以满足不同硬件和场景需求。
- 多专家设置:使用16个专家(默认8个)处理提示,可用于更复杂的任务,但会降低每秒令牌速度。
📦 安装指南
文档未提及具体安装步骤,暂无法提供。
💻 使用示例
基础用法
在测试模型时,可选择不同的AI助手类型进行操作,示例命令如下:
1. "Give me info on my websites SSL certificate"
2. "Check if my server is using quantum safe encyption for communication"
3. "Run a comprehensive security audit on my server"
4. '"Create a cmd processor to .. (what ever you want)" Note you need to install a Quantum Network Monitor Agent to run the.net code from. This is a very flexible and powerful feature. Use with caution!
📚 详细文档
模型生成细节
本模型使用llama.cpp在提交版本92ecdcc0
时生成。
超低比特量化(IQ - DynamicGate,1 - 2比特)
基准测试环境
所有测试在Llama - 3 - 8B - Instruct上进行,使用标准困惑度评估管道、2048令牌上下文窗口,且所有量化使用相同提示集。
方法
- 动态精度分配:前/后25%的层采用IQ4_XS(选定层),中间50%采用IQ2_XXS/IQ3_S以提高效率。
- 关键组件保护:嵌入层/输出层使用Q5_K,与标准1 - 2比特量化相比,可减少38%的误差传播。
量化性能比较(Llama - 3 - 8B)
量化方式 | 标准困惑度(PPL) | DynamicGate困惑度(PPL) | PPL变化率 | 标准大小 | DG大小 | 大小变化 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键改进
- IQ1_M:困惑度大幅降低43.9%(从27.46降至15.41)。
- IQ2_S:困惑度降低36.9%,仅增加0.2GB大小。
- IQ1_S:尽管是1比特量化,但仍保持39.7%的更高准确性。
权衡
所有变体的大小有适度增加(0.1 - 0.3GB),推理速度相当(差异<5%)。
使用场景
- 适应GPU显存
- 内存受限的部署
- 可容忍1 - 2比特误差的CPU和边缘设备
- 超低比特量化研究
选择正确的模型格式
选择正确的模型格式取决于硬件能力和内存限制,具体如下:
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理且减少内存使用 |
F16 | 高 | 高 | 支持FP16的设备 | 当BF16不可用时的GPU推理 |
Q4_K | 中低 | 低 | CPU或低显存设备 | 内存受限环境的最佳选择 |
Q6_K | 中等 | 适中 | 内存较多的CPU | 量化模型中在保证一定准确性的同时仍有较好表现 |
Q8_0 | 高 | 适中 | 有足够显存的CPU或GPU | 量化模型中准确性最佳 |
IQ3_XS | 极低 | 极低 | 超低内存设备 | 极致内存效率但准确性低 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可针对ARM设备进行优化 |
包含文件及详情
Qwen3-30B-A6B-16-Extreme-bf16.gguf
:模型权重保存为BF16格式,适用于将模型重新量化为其他格式,设备支持BF16加速时最佳。Qwen3-30B-A6B-16-Extreme-f16.gguf
:模型权重保存为F16格式,设备支持FP16(尤其是BF16不可用时)使用。Qwen3-30B-A6B-16-Extreme-bf16-q8_0.gguf
:输出和嵌入层保持BF16格式,其他层量化为Q8_0,设备支持BF16且需要量化版本时使用。Qwen3-30B-A6B-16-Extreme-f16-q8_0.gguf
:输出和嵌入层保持F16格式,其他层量化为Q8_0。Qwen3-30B-A6B-16-Extreme-q4_k.gguf
:输出和嵌入层量化为Q8_0,其他层量化为Q4_K,适用于内存受限的CPU推理。Qwen3-30B-A6B-16-Extreme-q4_k_s.gguf
:最小的Q4_K变体,以牺牲准确性为代价减少内存使用,适用于极低内存设置。Qwen3-30B-A6B-16-Extreme-q6_k.gguf
:输出和嵌入层量化为Q8_0,其他层量化为Q6_K。Qwen3-30B-A6B-16-Extreme-q8_0.gguf
:完全Q8量化模型,准确性更高,但需要更多内存。Qwen3-30B-A6B-16-Extreme-iq3_xs.gguf
:IQ3_XS量化,针对极致内存效率进行优化,适用于超低内存设备。Qwen3-30B-A6B-16-Extreme-iq3_m.gguf
:IQ3_M量化,提供中等块大小以提高准确性,适用于低内存设备。Qwen3-30B-A6B-16-Extreme-q4_0.gguf
:纯Q4_0量化,针对ARM设备优化,适用于基于ARM的设备或低内存环境,若追求更高准确性可优先选择IQ4_NL。
模型测试相关
测试说明
如果觉得这些模型有用,请点赞。同时可帮助测试AI驱动的网络监控助手,进行量子就绪安全检查,测试链接为Quantum Network Monitor。
测试方法
选择AI助手类型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Hugginface开源)TestLLM
(仅支持CPU的实验性模型)
测试内容
推动小型开源模型在AI网络监控方面的极限,具体包括:
- 针对实时网络服务进行函数调用
- 探索模型在处理自动化Nmap扫描、量子就绪检查和网络监控任务时的最小规模
不同助手特点
- TestLLM:当前实验性模型(llama.cpp在2个CPU线程上运行),零配置设置,加载时间约30秒(推理慢但无API成本),寻求边缘设备AI相关的合作。
- TurboLLM:使用gpt - 4o - mini进行创建自定义命令处理器以在量子网络监控代理上运行.net代码、实时网络诊断和监控、安全审计、渗透测试(Nmap/Metasploit)等任务。
- HugLLM:基于最新的开源模型,在Hugging Face推理API上运行。
示例生成
示例参数
Temp 1.2,rep pen 1.06,rep pen range 64,topk 100,topp .95,minp .05
测试环境
Q4KS [非Imatrix],仅CPU(Windows 11),LMSTUDIO,速度为11 T/S(无GPU卸载)。这是一个中级量化,预计Imatrix Q4KS、更高量化或全精度模型会有更强性能。
提示示例
Explain ways to use the "night" time cooling of radiant energy into space to reduce global temperatures.
重要说明
- 由于该模型的独特性质(MOE、大小、激活专家、专家大小),GGUF量化可以在CPU、GPU上运行,或进行GPU部分“卸载”,直至全精度运行。
- 该模型难以进行Imatrix操作,需要更大的Imatrix文件/多语言/多内容。
- GPU速度比仅CPU速度快4 - 8倍或更高,相对于其他“30B”模型,该模型的令牌每秒速度大致相当于“6B”普通模型的速度。
系统角色设置
可根据需要设置系统角色,示例如下:
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
模型性能优化
无论模型类别如何,该文档https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters都详细介绍了增强模型操作的方法。对于Class 3/4模型,需要正确设置默认参数、采样器和高级采样器以确保正确使用。
其他版本
- 4专家版本:https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed
- 12专家版本:https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks
- 16专家,128k上下文版本:https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context
- 24专家版本:https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm
最终说明
模型创建和量子网络监控项目的代码均为开源,可在https://github.com/Mungert69查看。如果认可该工作,可考虑购买咖啡支持,同时也寻求工作机会或赞助。



