T

Transfo Xl Wt103

由transfo-xl開發
Transformer-XL是一種採用相對位置編碼的因果Transformer架構,能夠通過複用先前計算的隱藏狀態來捕捉更長上下文,適用於文本生成任務。
下載量 4,498
發布時間 : 3/2/2022

模型概述

該模型基於Wikitext-103數據集訓練,主要用於英語文本生成任務,採用自適應軟max輸入輸出和記憶機制增強長文本處理能力。

模型特點

長文本記憶機制
通過複用先前計算的隱藏狀態實現跨段記憶,有效捕捉長距離依賴關係
相對位置編碼
採用正弦波嵌入的位置編碼方案,增強模型對位置信息的敏感性
自適應軟max
使用綁定式輸入輸出的自適應softmax,提升計算效率

模型能力

英語文本生成
長文本序列建模

使用案例

內容創作
自動文本續寫
根據給定開頭自動生成連貫的後續文本
可生成500-1000個標記的連貫文本
教育研究
語言模型研究
用於研究長文本依賴關係的建模方法
在Wikitext-103上達到18.3的困惑度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase