Q

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

Developed by DavidAU
基于Qwen3-30B-A3B专家混合模型的优化版本,通过减少激活专家数量提升速度,支持64k上下文长度,适用于多种文本生成任务。
Downloads 508
Release Time : 5/11/2025

Model Overview

该模型是对Qwen3-30B-A3B的微调版本,将激活专家数量从8个减少到4个(共128个专家),显著提升推理速度。适用于创意写作、问题解决、深度推理等多种文本生成场景。

Model Features

高速推理
通过减少激活专家数量,推理速度提升近一倍,CPU运行速度可达23 token/秒,GPU运行速度可达125+ token/秒。
64k上下文
通过YARN技术扩展上下文长度至64k(65535),适合处理长文本任务。
多量化版本支持
提供多种量化版本(如IQ1_M MAX、IQ2、Q4KS等),适用于不同硬件环境(GPU/CPU)。
专家混合结构
模型采用专家混合结构,自动选择最佳专家处理输入内容,平衡性能与质量。

Model Capabilities

文本生成
创意写作
问题解决
深度推理
角色扮演
故事创作
工具调用

Use Cases

创意写作
科幻小说创作
生成包含特定主题和情感的科幻小说片段。
生成内容情感丰富,主题突出,如示例中的《最后传输》片段。
问题解决
深度推理任务
通过长链思维系统化推理解决问题。
模型能够生成详细的思考过程(包裹在<think>标签中)并提供最终解答。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase