Y

Yoso 4096

由uw-madison開發
YOSO是一種高效的Transformer變體,通過伯努利採樣注意力機制將自注意力複雜度從二次降低到線性,支持長達4096的序列長度。
下載量 2,072
發布時間 : 3/2/2022

模型概述

YOSO模型專為長序列掩碼語言建模設計,採用改進的局部敏感哈希(LSH)和伯努利採樣注意力機制,顯著提升計算效率。

模型特點

線性複雜度注意力
通過伯努利採樣將傳統Transformer的O(n²)注意力複雜度降低至O(n)
長序列支持
專為4096長度的序列優化,顯著優於標準512長度Transformer
GPU優化設計
改進的LSH實現針對GPU架構進行了專門優化

模型能力

長文本語義理解
掩碼詞預測
上下文特徵提取

使用案例

自然語言處理
文本補全
預測被掩碼遮擋的文本內容
示例顯示對'巴黎是法國的[MASK]'預測出'首都'等合理結果
長文檔分析
處理長達4096 token的文檔序列
在LRA基準測試中表現優於其他高效注意力方法
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase