Qwen3-30B-A3B-GGUF开源模型 - 量化版本，给定内存下提供最佳质量

首页

Qwen3 30B A3B GGUF

由 ubergarm 开发

Qwen3-30B-A3B的量化版本，采用先进的非线性SotA量化技术，在给定内存占用下提供同类最佳的质量。

大型语言模型开源协议:Apache-2.0 #高效混合量化 #大上下文支持 #GPU优化推理

下载量 780

发布时间 : 5/2/2025

模型简介

这是一个基于Qwen/Qwen3-30B-A3B模型的量化版本，专为高效推理设计，支持对话式交互，适用于文本生成任务。

模型特点

先进的非线性量化

使用ik_llama.cpp分支支持先进的非线性SotA量化，提供高质量推理。

高效内存占用

在24GB VRAM的GPU上可运行超过32k上下文，优化内存使用。

高性能推理

在3090TI FE 24GB VRAM上达到超过1600 tok/sec的PP和105 tok/sec的TG。

模型能力

文本生成

对话式交互

长上下文处理

使用案例

文本生成

对话系统

用于构建高效的对话系统，支持长上下文交互。

在32k上下文下保持高质量生成

内容创作

辅助生成高质量文本内容，如文章、故事等。

🚀 Qwen/Qwen3 - 30B - A3B的`ik_llama.cpp` imatrix量化版本

本项目提供了Qwen/Qwen3 - 30B - A3B模型的量化版本，这些量化模型在特定内存占用下提供了一流的质量。

🚀 快速开始

`ik_llama.cpp` GPU推理API服务器

# 此示例约占用21468MiB显存
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

如果您需要更大的上下文和/或更少的显存占用，可以尝试：

更小的KV缓存量化 -ctk q4_0 -ctv q4_0

如果您需要更高的吞吐量，可以尝试：

将上下文增加到显存允许的最大限制
使用 --parallel N 使每个插槽有 (上下文 / N) 可用
使用异步客户端并保持队列满

✨ 主要特性

本量化集合需要 ik_llama.cpp 分支来支持先进的非线性最优量化。请勿下载这些大文件并期望它们能在主线的原生llama.cpp、ollama、LM Studio、KoboldCpp等上运行！
这些量化模型在给定的内存占用下提供了一流的质量。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

# 此示例约占用21468MiB显存
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

高级用法

如果您需要更大的上下文和/或更少的显存占用，可以尝试：

# 更小的KV缓存量化
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk q4_0 -ctv q4_0 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

如果您需要更高的吞吐量，可以尝试：

# 增加上下文到最大限制并使用并行参数
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 65536 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080
  --parallel 2

📚 详细文档

量化集合

到目前为止，这些是我提供的最佳方案，在良好的内存占用断点下提供了出色的质量。

ubergarm/Qwen3 - 30B - A3B - mix - IQ4_K

此量化模型在提供良好速度性能的同时，提供了一流的质量。该量化模型设计为在24GB显存的GPU上使用GPU高性能f16 KV缓存运行超过32k的上下文。您还可以尝试使用 -nkvo -ctk q8_0 -ctv q8_0 卸载到CPU，并在启动时使用 -rtr 进行RAM优化的张量打包（不支持 mmap()），通过将重复层卸载到CPU，显存占用约为18396MiB或更少，但速度会降低。

17.679 GiB (4.974 BPW)

  f32:  241 tensors
 q8_0:    6 tensors
iq4_k:   96 tensors
iq5_k:   48 tensors
iq6_k:  188 tensors

Final estimate: PPL = 9.1184 +/- 0.07278 (wiki-test.raw, compare to BF16 at 9.0703 +/- 0.07223)
*注意*: 使用 `wiki.test.raw` 进行的PPL基准测试和使用 `ubergarm-kld-test-corpus.txt` 进行的KLD基准测试结果很有趣！即将发布！

量化方法

👆秘密配方

#!/usr/bin/env bash

custom="
# Attention (给第0层多一些关注，因为它在余弦相似度得分中最低)
blk\.0\.attn_k.*=q8_0
blk\.0\.attn_q.*=q8_0
blk\.0\.attn_v.*=q8_0
blk\.0\.attn_output.*=q8_0

blk\..*\.attn_k.*=iq6_k
blk\..*\.attn_q.*=iq6_k
blk\..*\.attn_v.*=iq6_k
blk\..*\.attn_output.*=iq6_k

# 令牌嵌入 (将这些放在第二位，以免attn_output正则表达式过早匹配)
token_embd\.weight=q8_0
output\.weight=q8_0

# 专家层
blk\..*\.ffn_down_exps\.weight=iq5_k
blk\..*\.ffn_(gate|up)_exps\.weight=iq4_k
"

custom=$(
  echo "$custom" | grep -v '^#' | \
  sed -Ez 's:\n+:,:g;s:,$::;s:^,::'
)

./build/bin/llama-quantize \
    --custom-q "$custom" \
    --imatrix /mnt/raid/models/ubergarm/Qwen3-30B-A3B-GGUF/imatrix-Qwen3-30B-A3B.dat \
    /mnt/raid/models/Qwen/Qwen3-30B-A3B/Qwen3-30B-A3B-BF16-00001-of-00002.gguf \
    /mnt/raid/models/ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K.gguf \
    IQ4_K \
    24

讨论

待办事项: 讨论一些关于比较量化方法的内容，例如bartowski、unsloth和mradermacher，包括“质量”和“速度”。

基准测试

在使用 llama-sweep-bench 的首次测试中，我的3090TI FE 24GB显存GPU上达到了超过1600 tok/sec PP和105 tok/sec TG的速度。当然，随着进入完整的32k上下文，速度会减慢。由于这一切都还很新，请查看链接的基准测试讨论以获取更新。对于这样大小的模型，在生成质量和速度方面的性能都非常惊人！

显示在3090TI FE 24GB显存上完全卸载时峰值为1600 tok/sec PP和105 tok/sec TG的基准测试

显示令牌概率偏差百分位数的基准测试

参考资料

🔧 技术细节

暂未提供相关技术细节。

📄 许可证

本项目采用 Apache - 2.0许可证。

信息表格

属性	详情
量化者	ubergarm
任务类型	文本生成
基础模型	Qwen/Qwen3 - 30B - A3B
许可证	Apache - 2.0
许可证链接	https://huggingface.co/Qwen/Qwen3-30B-A3B/blob/main/LICENSE
基础模型关系	量化
标签	imatrix, qwen3_moe, conversational, ik_llama.cpp