S

Seerattention QwQ 32B AttnGates

由SeerAttention開發
為QwQ-32B模型引入注意力門控(AttnGates)權重的適配器,通過動態塊級稀疏性加速長上下文計算
下載量 35
發布時間 : 4/25/2025

模型概述

本倉庫包含SeerAttention為QwQ-32B模型引入的注意力門控權重,通過可學習的注意力門控模塊加速大語言模型的預填充階段計算,同時保持模型完整性。

模型特點

動態塊級稀疏性
通過注意力門控模塊實現動態塊級稀疏性,加速計算密集的預填充階段
參數高效訓練
採用自蒸餾框架訓練門控模塊,無需昂貴地重新訓練整個模型
定製計算內核
使用定製的塊稀疏FlashAttention內核實現高效推理計算
注意力模式保留
門控模塊學習模仿原始模型的二維最大池化注意力模式,保持模型完整性

模型能力

長上下文處理
高效注意力計算
動態稀疏推理

使用案例

高效推理
長文檔處理
加速長文檔的預填充階段計算
通過動態稀疏性顯著減少計算開銷
大模型部署
降低大語言模型在實際部署中的計算資源需求
保持模型性能的同時提高推理效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase