A

ARWKV R1 1B5

由RWKV-Red-Team開發
ARWKV-R1-1B5 是基於RNN的70億參數模型的早期預覽版,通過從DeepSeek-R1-Distill-Qwen-1.5B進行三階段知識蒸餾訓練而成,上下文長度為2k。
下載量 164
發布時間 : 2/7/2025

模型概述

ARWKV-R1-1B5 是一個基於RWKV-7時間混合與Transformer MLP架構的混合設計模型,展示了RWKV-7的高效循環機制和無自注意力的優勢。

模型特點

高效循環機制
基於RWKV-7的高效循環機制,無自注意力,完全O(n)複雜度。
恆定顯存佔用
模型在推理過程中保持恆定顯存佔用,適合單GPU訓練和推理。
混合架構設計
結合RWKV-7時間混合與Transformer MLP架構,優化了模型性能和效率。

模型能力

文本生成
多語言支持
高效推理

使用案例

通用問答
Trivia問答
作為世界級的trivia AI,提供準確、簡潔的回答。
翻譯
多語言翻譯
支持中英文之間的翻譯任務。
化學方程式
化學方程式生成
生成化學方程式。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase