SeerAttention-Decode-Qwen3-4B-AttnGates开源模型 - 支持Qwen3-4B推理任务，提供解码阶段权重

Seerattention Decode Qwen3 4B AttnGates

由 SeerAttention 开发

提供 SeerAttention-R 论文中解码阶段的 AttnGate 权重，支持 Qwen3-4B 模型的推理任务

下载量 4,295

发布时间 : 6/9/2025

模型简介

该模型包含 SeerAttention-R 论文中解码阶段的注意力门控权重，用于增强基于 Qwen3-4B 模型的推理能力

解码阶段注意力优化

提供解码阶段的注意力门控权重，优化推理过程

多预算支持

支持不同 token 预算下的推理任务

Qwen3 系列兼容

专为 Qwen3-4B 模型设计

推理任务优化

注意力机制增强

文本生成

学术推理

AIME 数学竞赛题解答

解决 AIME 数学竞赛题目

在不同 token 预算下达到 55.42-72.50% 的准确率

GPQA 问题解答

解决 GPQA 测试问题

在不同 token 预算下达到 39.61-56.19% 的准确率

数学问题解决

MATH500 数学题解答

解决 MATH500 数据集中的数学问题

在不同 token 预算下达到 84.80-93.93% 的准确率