Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf開源模型

首頁

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

由DavidAU開發

基於Qwen3-30B-A3B專家混合模型的優化版本，通過減少激活專家數量提升速度，支持64k上下文長度，適用於多種文本生成任務。

大型語言模型支持多種語言#64k超長上下文 #專家混合加速 #多語言創意寫作

下載量 508

發布時間 : 5/11/2025

模型概述

該模型是對Qwen3-30B-A3B的微調版本，將激活專家數量從8個減少到4個（共128個專家），顯著提升推理速度。適用於創意寫作、問題解決、深度推理等多種文本生成場景。

模型特點

高速推理

通過減少激活專家數量，推理速度提升近一倍，CPU運行速度可達23 token/秒，GPU運行速度可達125+ token/秒。

64k上下文

通過YARN技術擴展上下文長度至64k（65535），適合處理長文本任務。

多量化版本支持

提供多種量化版本（如IQ1_M MAX、IQ2、Q4KS等），適用於不同硬件環境（GPU/CPU）。

專家混合結構

模型採用專家混合結構，自動選擇最佳專家處理輸入內容，平衡性能與質量。

模型能力

文本生成

創意寫作

問題解決

深度推理

角色扮演

故事創作

工具調用

使用案例

創意寫作

科幻小說創作

生成包含特定主題和情感的科幻小說片段。

生成內容情感豐富，主題突出，如示例中的《最後傳輸》片段。

問題解決

深度推理任務

通過長鏈思維系統化推理解決問題。

模型能夠生成詳細的思考過程（包裹在<think>標籤中）並提供最終解答。

🚀 Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - AKA: "Punch IT!"

這是一個基於Qwen的“Qwen 30B - A3B”（混合專家模型，MOE）的微調模型，將使用的專家數量從8個減少到4個（總共128個專家）。這種方法幾乎使模型速度提高了一倍，並且使用1.5B（30B中的）參數，而不是3B（30B中的）參數。根據應用場景，你可能希望使用常規模型（“30B - A3B”），而將此模型用於更簡單的用例。不過，在日常（但並非廣泛）測試中，我並未發現功能有任何損失。

🚀 快速開始

本模型支持多種語言，包括英語、法語、德語、西班牙語、葡萄牙語、意大利語、日語、韓語、俄語、中文、阿拉伯語、波斯語、印尼語、馬來語、尼泊爾語、波蘭語、羅馬尼亞語、塞爾維亞語、瑞典語、土耳其語、烏克蘭語、越南語、印地語和孟加拉語。它適用於文本生成任務，具有64k上下文、高速、適用於所有用例、富有創造力等特點。

✨ 主要特性

多語言支持：支持24種語言，包括英語、法語、德語等。
高速運行：通過調整專家使用數量，接近使模型速度翻倍。
64k上下文：擴展了上下文長度至64k（65535）。
多種使用場景：適用於創意寫作、角色扮演、問題解決等各種場景。
多種量化版本：提供多種量化尺寸版本，各有特點。

📦 安裝指南

文檔未提供具體安裝步驟，可參考原始模型卡片 [https://huggingface.co/Qwen/Qwen3 - 30B - A3B](https://huggingface.co/Qwen/Qwen3 - 30B - A3B) 獲取詳細信息。

💻 使用示例

基礎用法

使用Jinja模板或CHATML模板進行文本生成。以下是一個使用4個專家的示例生成（Q4KS，CPU）：

Temp 1.2, rep pen 1.06, rep pen range 64, topk 100, topp .95, minp .05
Q4KS [non - imatrix], CPU only (windows 11), LMSTUDIO.

高級用法

對於更復雜的用例，可能受益於使用常規版本和/或12、16或24個專家的版本：

[12個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A4.5B - 12 - Cooks)
[16個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme)
[16個專家，128k上下文版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme - 128k - context)
[24個專家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A7.5B - 24 - Grand - Brainstorm)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於Qwen的“Qwen 30B - A3B”（MOE）的微調模型
基礎模型	DavidAU/Qwen3 - 30B - A1.5B - High - Speed
上下文大小	64K（65535）

量化版本特點

IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本：IQ2s表現良好。
Q2K/Q2KS：僅在CPU/RAM上使用時速度更快，但性能低於IQ2s。
Q3Ks：僅在CPU/RAM上使用時稍快，但性能低於IQ3s。
IQ3s及更高量化版本：與IQ2s、IQ1s和Q2s/Q3s相比，性能有很大提升，IQ4_XS/IQ4_NL在NEO Imatrix效果和特定質量方面達到峰值。
Q4s：高性能，但IQ4XS/IQ4NL與之接近甚至可能超越。
Q5s：非常高性能。
Q6：性能達到峰值，但NEO imatrix效果最小。

注意事項

IQ3s性能優於Q3s量化版本，IQ2s優於Q2s量化版本。
IQ4_XS / IQ4_NL性能與Q4s相當或更優。
IQ3_S / IQ3_M非常強大，可用於大多數任務。
所有Imatrix版本的量化版本性能優於非Imatrix版本。
“Q”量化版本通常比IQ量化版本更快（每秒令牌數），尤其是在CPU/RAM上運行時。
在某些配置下，Q2_K / Q2K_S（僅CPU/RAM操作）比IQ2/IQ3快25% - 100%。
GPU速度比僅CPU速度快4 - 8倍或更高，相對於其他“30B”模型，此模型速度也非常快（每秒令牌速度大致相當於1.5B“普通”模型速度）。

可選系統角色

你可能需要設置以下系統角色，儘管大多數情況下Qwen3s會自行生成推理/思考模塊：

You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.

有關如何在各種LLM/AI應用中“設置”系統角色，請參閱文檔“Maximizing - Model - Performance - All...”。

高質量設置/最佳操作指南/參數和採樣器

如果你要使用此模型（源模型、GGUF或其他量化版本），請查看文檔 [https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters) 以獲取關鍵參數、採樣器和高級採樣器設置。該文檔不僅適用於此模型，還可用於任何模型、任何倉庫、任何量化版本（包括源代碼操作），以增強模型的操作性能。

🔧 技術細節

本模型通過將使用的專家數量從8個減少到4個（總共128個專家），接近使模型速度翻倍，並使用1.5B（30B中的）參數。GGUF NEO Imatrix ggufs根據Qwen技術說明使用“YARN”將上下文擴展到64k（65535）。NEO Imatrix數據集是在測試和評估了50多個Imatrix數據集並進行大量調整後內部開發的。量化（和特定的Imatrix處理）是專門為Qwen3 30B - A1.5B模型設計的，並使用了LLamacpp（2025年4月15日 / B5127及以後）的最新更改來定製量化結構本身。