Qwen3-30B-A3B-GGUF開源模型 - 量化版本，給定內存下提供最佳質量

首頁

Qwen3 30B A3B GGUF

由ubergarm開發

Qwen3-30B-A3B的量化版本，採用先進的非線性SotA量化技術，在給定內存佔用下提供同類最佳的質量。

大型語言模型開源協議:Apache-2.0 #高效混合量化 #大上下文支持 #GPU優化推理

下載量 780

發布時間 : 5/2/2025

模型概述

這是一個基於Qwen/Qwen3-30B-A3B模型的量化版本，專為高效推理設計，支持對話式交互，適用於文本生成任務。

模型特點

先進的非線性量化

使用ik_llama.cpp分支支持先進的非線性SotA量化，提供高質量推理。

高效內存佔用

在24GB VRAM的GPU上可運行超過32k上下文，優化內存使用。

高性能推理

在3090TI FE 24GB VRAM上達到超過1600 tok/sec的PP和105 tok/sec的TG。

模型能力

文本生成

對話式交互

長上下文處理

使用案例

文本生成

對話系統

用於構建高效的對話系統，支持長上下文交互。

在32k上下文下保持高質量生成

內容創作

輔助生成高質量文本內容，如文章、故事等。

🚀 Qwen/Qwen3 - 30B - A3B的`ik_llama.cpp` imatrix量化版本

本項目提供了Qwen/Qwen3 - 30B - A3B模型的量化版本，這些量化模型在特定內存佔用下提供了一流的質量。

🚀 快速開始

`ik_llama.cpp` GPU推理API服務器

# 此示例約佔用21468MiB顯存
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

如果您需要更大的上下文和/或更少的顯存佔用，可以嘗試：

更小的KV緩存量化 -ctk q4_0 -ctv q4_0

如果您需要更高的吞吐量，可以嘗試：

將上下文增加到顯存允許的最大限制
使用 --parallel N 使每個插槽有 (上下文 / N) 可用
使用異步客戶端並保持隊列滿

✨ 主要特性

本量化集合需要 ik_llama.cpp 分支來支持先進的非線性最優量化。請勿下載這些大文件並期望它們能在主線的原生llama.cpp、ollama、LM Studio、KoboldCpp等上運行！
這些量化模型在給定的內存佔用下提供了一流的質量。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

# 此示例約佔用21468MiB顯存
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

高級用法

如果您需要更大的上下文和/或更少的顯存佔用，可以嘗試：

# 更小的KV緩存量化
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk q4_0 -ctv q4_0 \
  -c 32768 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080

如果您需要更高的吞吐量，可以嘗試：

# 增加上下文到最大限制並使用並行參數
./build/bin/llama-server
  --model ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K \
  --alias ubergarm/Qwen3-30B-A3B-mix-IQ4_K \
  -fa \
  -ctk f16 -ctv f16 \
  -c 65536 \
  -fmoe \
  -ngl 99 \
  --threads 1
  --host 127.0.0.1 \
  --port 8080
  --parallel 2

📚 詳細文檔

量化集合

到目前為止，這些是我提供的最佳方案，在良好的內存佔用斷點下提供了出色的質量。

ubergarm/Qwen3 - 30B - A3B - mix - IQ4_K

此量化模型在提供良好速度性能的同時，提供了一流的質量。該量化模型設計為在24GB顯存的GPU上使用GPU高性能f16 KV緩存運行超過32k的上下文。您還可以嘗試使用 -nkvo -ctk q8_0 -ctv q8_0 卸載到CPU，並在啟動時使用 -rtr 進行RAM優化的張量打包（不支持 mmap()），通過將重複層卸載到CPU，顯存佔用約為18396MiB或更少，但速度會降低。

17.679 GiB (4.974 BPW)

  f32:  241 tensors
 q8_0:    6 tensors
iq4_k:   96 tensors
iq5_k:   48 tensors
iq6_k:  188 tensors

Final estimate: PPL = 9.1184 +/- 0.07278 (wiki-test.raw, compare to BF16 at 9.0703 +/- 0.07223)
*注意*: 使用 `wiki.test.raw` 進行的PPL基準測試和使用 `ubergarm-kld-test-corpus.txt` 進行的KLD基準測試結果很有趣！即將發佈！

量化方法

👆秘密配方

#!/usr/bin/env bash

custom="
# Attention (給第0層多一些關注，因為它在餘弦相似度得分中最低)
blk\.0\.attn_k.*=q8_0
blk\.0\.attn_q.*=q8_0
blk\.0\.attn_v.*=q8_0
blk\.0\.attn_output.*=q8_0

blk\..*\.attn_k.*=iq6_k
blk\..*\.attn_q.*=iq6_k
blk\..*\.attn_v.*=iq6_k
blk\..*\.attn_output.*=iq6_k

# 令牌嵌入 (將這些放在第二位，以免attn_output正則表達式過早匹配)
token_embd\.weight=q8_0
output\.weight=q8_0

# 專家層
blk\..*\.ffn_down_exps\.weight=iq5_k
blk\..*\.ffn_(gate|up)_exps\.weight=iq4_k
"

custom=$(
  echo "$custom" | grep -v '^#' | \
  sed -Ez 's:\n+:,:g;s:,$::;s:^,::'
)

./build/bin/llama-quantize \
    --custom-q "$custom" \
    --imatrix /mnt/raid/models/ubergarm/Qwen3-30B-A3B-GGUF/imatrix-Qwen3-30B-A3B.dat \
    /mnt/raid/models/Qwen/Qwen3-30B-A3B/Qwen3-30B-A3B-BF16-00001-of-00002.gguf \
    /mnt/raid/models/ubergarm/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-mix-IQ4_K.gguf \
    IQ4_K \
    24

討論

待辦事項: 討論一些關於比較量化方法的內容，例如bartowski、unsloth和mradermacher，包括“質量”和“速度”。

基準測試

在使用 llama-sweep-bench 的首次測試中，我的3090TI FE 24GB顯存GPU上達到了超過1600 tok/sec PP和105 tok/sec TG的速度。當然，隨著進入完整的32k上下文，速度會減慢。由於這一切都還很新，請查看鏈接的基準測試討論以獲取更新。對於這樣大小的模型，在生成質量和速度方面的性能都非常驚人！

顯示在3090TI FE 24GB顯存上完全卸載時峰值為1600 tok/sec PP和105 tok/sec TG的基準測試

顯示令牌概率偏差百分位數的基準測試

參考資料

🔧 技術細節

暫未提供相關技術細節。

📄 許可證

本項目採用 Apache - 2.0許可證。

信息表格

屬性	詳情
量化者	ubergarm
任務類型	文本生成
基礎模型	Qwen/Qwen3 - 30B - A3B
許可證	Apache - 2.0
許可證鏈接	https://huggingface.co/Qwen/Qwen3-30B-A3B/blob/main/LICENSE
基礎模型關係	量化
標籤	imatrix, qwen3_moe, conversational, ik_llama.cpp