T

T5 Efficient Small Kv256

由google開發
T5-Efficient-SMALL-KV256是谷歌T5的變體,採用深度窄型架構優化下游任務性能,參數量1.17億,需微調使用。
下載量 16
發布時間 : 3/2/2022

模型概述

基於T5架構的深度窄型預訓練模型,優先增加模型深度以提升下游任務效率,需微調後用於英語NLP任務。

模型特點

深度窄型架構
通過增加Transformer層數(深度)而非寬度優化性能,論文證明該策略對下游任務更高效
KV投影優化
鍵值投影維度設置為256,平衡計算效率與模型容量
預訓練目標
使用C4數據集基於跨度的掩碼語言建模(MLM)目標訓練

模型能力

文本生成
文本摘要
問答系統
文本分類(需調整)

使用案例

文本生成
新聞摘要
微調後生成輸入文本的簡潔摘要
問答系統
開放域問答
根據上下文生成問題答案
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase