A

ARWKV R1 7B

由RWKV-Red-Team開發
基於純RNN的70億參數模型,通過知識蒸餾訓練,展示RWKV-7的高效循環機制和無自注意力架構。
下載量 113
發布時間 : 2/7/2025

模型概述

ARWKV-R1-7B是一個基於RWKV-7時間混合與Transformer MLP的混合架構模型,專注於文本生成任務,具有高效循環機制和恆定顯存佔用。

模型特點

高效循環機制
採用RWKV-7的高效循環機制,無自注意力,完全O(n)複雜度。
恆定顯存佔用
模型在推理過程中保持恆定顯存佔用,適合單GPU訓練和推理。
知識蒸餾訓練
通過從DeepSeek-R1-Distill-Qwen-1.5B進行三階段知識蒸餾訓練。
混合架構
結合RWKV-7時間混合與Transformer MLP的優勢,提升模型性能。

模型能力

文本生成
問答系統
知識蒸餾

使用案例

問答系統
世界級問答AI
提供準確、簡潔的回答,適用於各種問答場景。
在MMLU基準測試中達到67.25分。
數學推理
數學問題解答
能夠解答基礎的數學問題,適用於教育場景。
在GSM8K基準測試中達到56.06分。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase