R

Retnet 410m XATL

由NucleusAI開發
基於RetNet架構與Transformer混合的線性計算成本推理模型,通過跨架構遷移學習實現
下載量 347
發布時間 : 3/14/2024

模型概述

該模型採用RetNet架構實現,通過從pythia-410m模型遷移共享權重組件(如輸入/輸出嵌入層、MLP權重等),實現了線性計算成本推理。

模型特點

跨架構遷移學習
從預訓練語言模型遷移共享權重組件,避免從頭訓練新的線性計算成本推理模型
線性計算成本
基於RetNet架構實現,相比傳統Transformer具有更低的推理計算成本
權重共享
輸入/輸出嵌入層、MLP權重、層歸一化模塊及注意力輸出投影矩陣均遷移自pythia-410m模型

模型能力

文本生成
因果語言建模

使用案例

文本生成
對話生成
可用於生成連貫的對話響應
內容創作
輔助生成文章、故事等長文本內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase