D

Doge 160M Reason Distill

由 SmallDoge 开发
Doge 160M 推理蒸馏版是一个基于动态掩码注意力机制和跨域混合专家的轻量级语言模型,专注于推理和问答任务。
下载量 26
发布时间 : 2/18/2025

模型简介

该模型采用动态掩码注意力机制进行序列变换,可选择多层感知机或跨域混合专家进行状态转换。动态掩码注意力机制使Transformer能在训练时使用自注意力机制,在推理时切换为状态空间机制。

模型特点

动态掩码注意力机制
允许在训练时使用自注意力机制,在推理时切换为状态空间机制,提高推理效率。
跨域混合专家
可直接继承多层感知机的权重进行后续训练,提高模型适应性。
推理蒸馏
在Reason-Distill数据集上进行监督微调,优化推理能力。

模型能力

问答生成
逻辑推理
数学问题解答

使用案例

教育
数学问题解答
解答基础数学比较和计算问题
能正确比较数字大小并提供推理过程
智能助手
系统化问题解答
按照特定格式提供详细思考过程和解决方案
能生成结构化的思考过程和最终解决方案
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase