S

Seerattention QwQ 32B AttnGates

Developed by SeerAttention
為QwQ-32B模型引入注意力門控(AttnGates)權重的適配器,通過動態塊級稀疏性加速長上下文計算
Downloads 35
Release Time : 4/25/2025

Model Overview

本倉庫包含SeerAttention為QwQ-32B模型引入的注意力門控權重,通過可學習的注意力門控模塊加速大語言模型的預填充階段計算,同時保持模型完整性。

Model Features

動態塊級稀疏性
通過注意力門控模塊實現動態塊級稀疏性,加速計算密集的預填充階段
參數高效訓練
採用自蒸餾框架訓練門控模塊,無需昂貴地重新訓練整個模型
定製計算內核
使用定製的塊稀疏FlashAttention內核實現高效推理計算
注意力模式保留
門控模塊學習模仿原始模型的二維最大池化注意力模式,保持模型完整性

Model Capabilities

長上下文處理
高效注意力計算
動態稀疏推理

Use Cases

高效推理
長文檔處理
加速長文檔的預填充階段計算
通過動態稀疏性顯著減少計算開銷
大模型部署
降低大語言模型在實際部署中的計算資源需求
保持模型性能的同時提高推理效率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase