SeerAttention-Decode-Qwen3-4B-AttnGates開源模型 - 支持Qwen3-4B推理任務，提供解碼階段權重

Seerattention Decode Qwen3 4B AttnGates

由SeerAttention開發

提供 SeerAttention-R 論文中解碼階段的 AttnGate 權重，支持 Qwen3-4B 模型的推理任務

下載量 4,295

發布時間 : 6/9/2025

模型概述

該模型包含 SeerAttention-R 論文中解碼階段的注意力門控權重，用於增強基於 Qwen3-4B 模型的推理能力

解碼階段注意力優化

提供解碼階段的注意力門控權重，優化推理過程

多預算支持

支持不同 token 預算下的推理任務

Qwen3 系列兼容

專為 Qwen3-4B 模型設計

推理任務優化

注意力機制增強

文本生成

學術推理

AIME 數學競賽題解答

解決 AIME 數學競賽題目

在不同 token 預算下達到 55.42-72.50% 的準確率

GPQA 問題解答

解決 GPQA 測試問題

在不同 token 預算下達到 39.61-56.19% 的準確率

數學問題解決

MATH500 數學題解答

解決 MATH500 數據集中的數學問題

在不同 token 預算下達到 84.80-93.93% 的準確率