🚀 Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - AKA: "Punch IT!"
这是一个基于Qwen的“Qwen 30B - A3B”(混合专家模型,MOE)的微调模型,将使用的专家数量从8个减少到4个(总共128个专家)。这种方法几乎使模型速度提高了一倍,并且使用1.5B(30B中的)参数,而不是3B(30B中的)参数。根据应用场景,你可能希望使用常规模型(“30B - A3B”),而将此模型用于更简单的用例。不过,在日常(但并非广泛)测试中,我并未发现功能有任何损失。
🚀 快速开始
本模型支持多种语言,包括英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语和孟加拉语。它适用于文本生成任务,具有64k上下文、高速、适用于所有用例、富有创造力等特点。
✨ 主要特性
- 多语言支持:支持24种语言,包括英语、法语、德语等。
- 高速运行:通过调整专家使用数量,接近使模型速度翻倍。
- 64k上下文:扩展了上下文长度至64k(65535)。
- 多种使用场景:适用于创意写作、角色扮演、问题解决等各种场景。
- 多种量化版本:提供多种量化尺寸版本,各有特点。
📦 安装指南
文档未提供具体安装步骤,可参考原始模型卡片 [https://huggingface.co/Qwen/Qwen3 - 30B - A3B](https://huggingface.co/Qwen/Qwen3 - 30B - A3B) 获取详细信息。
💻 使用示例
基础用法
使用Jinja模板或CHATML模板进行文本生成。以下是一个使用4个专家的示例生成(Q4KS,CPU):
Temp 1.2, rep pen 1.06, rep pen range 64, topk 100, topp .95, minp .05
Q4KS [non - imatrix], CPU only (windows 11), LMSTUDIO.
高级用法
对于更复杂的用例,可能受益于使用常规版本和/或12、16或24个专家的版本:
- [12个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A4.5B - 12 - Cooks)
- [16个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme)
- [16个专家,128k上下文版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A6B - 16 - Extreme - 128k - context)
- [24个专家版本](https://huggingface.co/DavidAU/Qwen3 - 30B - A7.5B - 24 - Grand - Brainstorm)
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于Qwen的“Qwen 30B - A3B”(MOE)的微调模型 |
基础模型 |
DavidAU/Qwen3 - 30B - A1.5B - High - Speed |
上下文大小 |
64K(65535) |
量化版本特点
- IQ1_M MAX / IQ1_M MAX PLUS及更高量化版本:IQ2s表现良好。
- Q2K/Q2KS:仅在CPU/RAM上使用时速度更快,但性能低于IQ2s。
- Q3Ks:仅在CPU/RAM上使用时稍快,但性能低于IQ3s。
- IQ3s及更高量化版本:与IQ2s、IQ1s和Q2s/Q3s相比,性能有很大提升,IQ4_XS/IQ4_NL在NEO Imatrix效果和特定质量方面达到峰值。
- Q4s:高性能,但IQ4XS/IQ4NL与之接近甚至可能超越。
- Q5s:非常高性能。
- Q6:性能达到峰值,但NEO imatrix效果最小。
注意事项
- IQ3s性能优于Q3s量化版本,IQ2s优于Q2s量化版本。
- IQ4_XS / IQ4_NL性能与Q4s相当或更优。
- IQ3_S / IQ3_M非常强大,可用于大多数任务。
- 所有Imatrix版本的量化版本性能优于非Imatrix版本。
- “Q”量化版本通常比IQ量化版本更快(每秒令牌数),尤其是在CPU/RAM上运行时。
- 在某些配置下,Q2_K / Q2K_S(仅CPU/RAM操作)比IQ2/IQ3快25% - 100%。
- GPU速度比仅CPU速度快4 - 8倍或更高,相对于其他“30B”模型,此模型速度也非常快(每秒令牌速度大致相当于1.5B“普通”模型速度)。
可选系统角色
你可能需要设置以下系统角色,尽管大多数情况下Qwen3s会自行生成推理/思考模块:
You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.
有关如何在各种LLM/AI应用中“设置”系统角色,请参阅文档“Maximizing - Model - Performance - All...”。
高质量设置/最佳操作指南/参数和采样器
如果你要使用此模型(源模型、GGUF或其他量化版本),请查看文档 [https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters) 以获取关键参数、采样器和高级采样器设置。该文档不仅适用于此模型,还可用于任何模型、任何仓库、任何量化版本(包括源代码操作),以增强模型的操作性能。
🔧 技术细节
本模型通过将使用的专家数量从8个减少到4个(总共128个专家),接近使模型速度翻倍,并使用1.5B(30B中的)参数。GGUF NEO Imatrix ggufs根据Qwen技术说明使用“YARN”将上下文扩展到64k(65535)。NEO Imatrix数据集是在测试和评估了50多个Imatrix数据集并进行大量调整后内部开发的。量化(和特定的Imatrix处理)是专门为Qwen3 30B - A1.5B模型设计的,并使用了LLamacpp(2025年4月15日 / B5127及以后)的最新更改来定制量化结构本身。
📄 许可证
文档未提及许可证信息。
⚠️ 重要提示
所有此模型的量化版本由于其独特的结构,可仅在GPU和/或CPU/RAM上使用。不同量化尺寸版本具有特殊功能。
💡 使用建议
对于更复杂的用例,可考虑使用常规版本或更多专家的版本;在使用模型时,务必查看相关文档以获取最佳参数和采样器设置。