S

Seerattention Decode Qwen3 4B AttnGates

由SeerAttention開發
提供 SeerAttention-R 論文中解碼階段的 AttnGate 權重,支持 Qwen3-4B 模型的推理任務
下載量 4,295
發布時間 : 6/9/2025

模型概述

該模型包含 SeerAttention-R 論文中解碼階段的注意力門控權重,用於增強基於 Qwen3-4B 模型的推理能力

模型特點

解碼階段注意力優化
提供解碼階段的注意力門控權重,優化推理過程
多預算支持
支持不同 token 預算下的推理任務
Qwen3 系列兼容
專為 Qwen3-4B 模型設計

模型能力

推理任務優化
注意力機制增強
文本生成

使用案例

學術推理
AIME 數學競賽題解答
解決 AIME 數學競賽題目
在不同 token 預算下達到 55.42-72.50% 的準確率
GPQA 問題解答
解決 GPQA 測試問題
在不同 token 預算下達到 39.61-56.19% 的準確率
數學問題解決
MATH500 數學題解答
解決 MATH500 數據集中的數學問題
在不同 token 預算下達到 84.80-93.93% 的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase