A

ARWKV R1 7B

RWKV-Red-Teamによって開発
純粋なRNNベースの70億パラメーターモデルで、知識蒸留によって訓練され、RWKV-7の効率的なリカレントメカニズムとセルフアテンションのないアーキテクチャを示しています。
ダウンロード数 113
リリース時間 : 2/7/2025

モデル概要

ARWKV-R1-7Bは、RWKV-7の時間混合とTransformer MLPを組み合わせたハイブリッドアーキテクチャモデルで、テキスト生成タスクに特化しており、効率的なリカレントメカニズムと一定のVRAM使用量を特徴としています。

モデル特徴

効率的なリカレントメカニズム
RWKV-7の効率的なリカレントメカニズムを採用し、セルフアテンションがなく、完全にO(n)の複雑さです。
一定のVRAM使用量
モデルは推論プロセス中に一定のVRAM使用量を維持し、単一GPUでのトレーニングと推論に適しています。
知識蒸留トレーニング
DeepSeek-R1-Distill-Qwen-1.5Bからの3段階の知識蒸留トレーニングを実施しました。
ハイブリッドアーキテクチャ
RWKV-7の時間混合とTransformer MLPの利点を組み合わせ、モデルの性能を向上させました。

モデル能力

テキスト生成
質問応答システム
知識蒸留

使用事例

質問応答システム
世界レベルの質問応答AI
正確で簡潔な回答を提供し、さまざまな質問応答シナリオに適しています。
MMLUベンチマークテストで67.25点を達成しました。
数学的推論
数学問題の解答
基本的な数学問題を解答でき、教育シナリオに適しています。
GSM8Kベンチマークテストで56.06点を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase