A

ARWKV R1 1B5

RWKV-Red-Teamによって開発
ARWKV-R1-1B5 はRNNベースの70億パラメータモデルの初期プレビュー版で、DeepSeek-R1-Distill-Qwen-1.5Bからの3段階の知識蒸留トレーニングにより作成され、コンテキスト長は2kです。
ダウンロード数 164
リリース時間 : 2/7/2025

モデル概要

ARWKV-R1-1B5 はRWKV-7時間混合とTransformer MLPアーキテクチャのハイブリッド設計モデルで、RWKV-7の効率的なリカレントメカニズムとセルフアテンションのない利点を示しています。

モデル特徴

効率的なリカレントメカニズム
RWKV-7ベースの効率的なリカレントメカニズムで、セルフアテンションがなく、完全にO(n)の複雑さです。
一定のメモリ使用量
モデルは推論プロセス中に一定のメモリ使用量を維持し、単一GPUでのトレーニングと推論に適しています。
ハイブリッドアーキテクチャ設計
RWKV-7時間混合とTransformer MLPアーキテクチャを組み合わせ、モデルの性能と効率を最適化しました。

モデル能力

テキスト生成
多言語サポート
効率的な推論

使用事例

一般的な質問応答
トリビアクイズ
世界クラスのトリビアAIとして、正確で簡潔な回答を提供します。
翻訳
多言語翻訳
中英語間の翻訳タスクをサポートします。
化学式
化学式生成
化学式を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase