D

Doge 160M Reason Distill

Developed by SmallDoge
Doge 160M 推理蒸馏版是一个基于动态掩码注意力机制和跨域混合专家的轻量级语言模型,专注于推理和问答任务。
Downloads 26
Release Time : 2/18/2025

Model Overview

该模型采用动态掩码注意力机制进行序列变换,可选择多层感知机或跨域混合专家进行状态转换。动态掩码注意力机制使Transformer能在训练时使用自注意力机制,在推理时切换为状态空间机制。

Model Features

动态掩码注意力机制
允许在训练时使用自注意力机制,在推理时切换为状态空间机制,提高推理效率。
跨域混合专家
可直接继承多层感知机的权重进行后续训练,提高模型适应性。
推理蒸馏
在Reason-Distill数据集上进行监督微调,优化推理能力。

Model Capabilities

问答生成
逻辑推理
数学问题解答

Use Cases

教育
数学问题解答
解答基础数学比较和计算问题
能正确比较数字大小并提供推理过程
智能助手
系统化问题解答
按照特定格式提供详细思考过程和解决方案
能生成结构化的思考过程和最终解决方案
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase