R

Retnet 410m XATL

Developed by NucleusAI
基於RetNet架構與Transformer混合的線性計算成本推理模型,通過跨架構遷移學習實現
Downloads 347
Release Time : 3/14/2024

Model Overview

該模型採用RetNet架構實現,通過從pythia-410m模型遷移共享權重組件(如輸入/輸出嵌入層、MLP權重等),實現了線性計算成本推理。

Model Features

跨架構遷移學習
從預訓練語言模型遷移共享權重組件,避免從頭訓練新的線性計算成本推理模型
線性計算成本
基於RetNet架構實現,相比傳統Transformer具有更低的推理計算成本
權重共享
輸入/輸出嵌入層、MLP權重、層歸一化模塊及注意力輸出投影矩陣均遷移自pythia-410m模型

Model Capabilities

文本生成
因果語言建模

Use Cases

文本生成
對話生成
可用於生成連貫的對話響應
內容創作
輔助生成文章、故事等長文本內容
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase