S

Seerattention Decode Qwen3 4B AttnGates

由 SeerAttention 开发
提供 SeerAttention-R 论文中解码阶段的 AttnGate 权重,支持 Qwen3-4B 模型的推理任务
下载量 4,295
发布时间 : 6/9/2025

模型简介

该模型包含 SeerAttention-R 论文中解码阶段的注意力门控权重,用于增强基于 Qwen3-4B 模型的推理能力

模型特点

解码阶段注意力优化
提供解码阶段的注意力门控权重,优化推理过程
多预算支持
支持不同 token 预算下的推理任务
Qwen3 系列兼容
专为 Qwen3-4B 模型设计

模型能力

推理任务优化
注意力机制增强
文本生成

使用案例

学术推理
AIME 数学竞赛题解答
解决 AIME 数学竞赛题目
在不同 token 预算下达到 55.42-72.50% 的准确率
GPQA 问题解答
解决 GPQA 测试问题
在不同 token 预算下达到 39.61-56.19% 的准确率
数学问题解决
MATH500 数学题解答
解决 MATH500 数据集中的数学问题
在不同 token 预算下达到 84.80-93.93% 的准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase