Nystromformer 4096
N
Nystromformer 4096
由uw-madison開發
基於WikiText-103 v1數據集訓練的長序列Nyströmformer模型,支持4096長度的序列處理
下載量 74
發布時間 : 4/18/2022
模型概述
採用Nyström近似方法的Transformer變體,專注於高效處理長序列文本任務,通過降低自注意力複雜度提升計算效率
模型特點
長序列處理
支持4096長度的序列輸入,克服傳統Transformer的上下文長度限制
高效注意力機制
採用Nyström方法近似自注意力計算,顯著降低O(n^2)複雜度
內存優化
通過注意力矩陣的低秩近似減少內存佔用
模型能力
長文本語言建模
上下文感知文本生成
文檔級語義理解
使用案例
文本生成
長文檔自動續寫
基於長上下文生成連貫的後續文本
保持長距離語義一致性
語言模型研究
長序列建模基準測試
評估模型在長依賴關係捕捉方面的性能
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98