N

Nystromformer 4096

由uw-madison開發
基於WikiText-103 v1數據集訓練的長序列Nyströmformer模型,支持4096長度的序列處理
下載量 74
發布時間 : 4/18/2022

模型概述

採用Nyström近似方法的Transformer變體,專注於高效處理長序列文本任務,通過降低自注意力複雜度提升計算效率

模型特點

長序列處理
支持4096長度的序列輸入,克服傳統Transformer的上下文長度限制
高效注意力機制
採用Nyström方法近似自注意力計算,顯著降低O(n^2)複雜度
內存優化
通過注意力矩陣的低秩近似減少內存佔用

模型能力

長文本語言建模
上下文感知文本生成
文檔級語義理解

使用案例

文本生成
長文檔自動續寫
基於長上下文生成連貫的後續文本
保持長距離語義一致性
語言模型研究
長序列建模基準測試
評估模型在長依賴關係捕捉方面的性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase