D

Doge 160M Reason Distill

SmallDogeによって開発
Doge 160M 推論蒸留版は、動的マスクアテンションメカニズムとクロスドメイン混合専門家に基づく軽量言語モデルで、推論と質問応答タスクに特化しています。
ダウンロード数 26
リリース時間 : 2/18/2025

モデル概要

このモデルは動的マスクアテンションメカニズムを使用してシーケンス変換を行い、多層パーセプトロンまたはクロスドメイン混合専門家を選択して状態変換を行います。動的マスクアテンションメカニズムにより、Transformerはトレーニング時に自己アテンションメカニズムを使用し、推論時に状態空間メカニズムに切り替えることができます。

モデル特徴

動的マスクアテンションメカニズム
トレーニング時に自己アテンションメカニズムを使用し、推論時に状態空間メカニズムに切り替えることができ、推論効率を向上させます。
クロスドメイン混合専門家
多層パーセプトロンの重みを直接継承して後続のトレーニングを行うことができ、モデルの適応性を向上させます。
推論蒸留
Reason-Distillデータセットで教師あり微調整を行い、推論能力を最適化します。

モデル能力

質問応答生成
論理的推論
数学問題解答

使用事例

教育
数学問題解答
基礎的な数学の比較と計算問題を解答
数字の大小を正しく比較し、推論プロセスを提供できる
インテリジェントアシスタント
体系的な問題解答
特定のフォーマットで詳細な思考プロセスと解決策を提供
構造化された思考プロセスと最終的な解決策を生成できる
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase