Q

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

由DavidAU開發
基於Qwen3-30B-A3B專家混合模型的優化版本,通過減少激活專家數量提升速度,支持64k上下文長度,適用於多種文本生成任務。
下載量 508
發布時間 : 5/11/2025

模型概述

該模型是對Qwen3-30B-A3B的微調版本,將激活專家數量從8個減少到4個(共128個專家),顯著提升推理速度。適用於創意寫作、問題解決、深度推理等多種文本生成場景。

模型特點

高速推理
通過減少激活專家數量,推理速度提升近一倍,CPU運行速度可達23 token/秒,GPU運行速度可達125+ token/秒。
64k上下文
通過YARN技術擴展上下文長度至64k(65535),適合處理長文本任務。
多量化版本支持
提供多種量化版本(如IQ1_M MAX、IQ2、Q4KS等),適用於不同硬件環境(GPU/CPU)。
專家混合結構
模型採用專家混合結構,自動選擇最佳專家處理輸入內容,平衡性能與質量。

模型能力

文本生成
創意寫作
問題解決
深度推理
角色扮演
故事創作
工具調用

使用案例

創意寫作
科幻小說創作
生成包含特定主題和情感的科幻小說片段。
生成內容情感豐富,主題突出,如示例中的《最後傳輸》片段。
問題解決
深度推理任務
通過長鏈思維系統化推理解決問題。
模型能夠生成詳細的思考過程(包裹在<think>標籤中)並提供最終解答。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase