P

Pile T5 Xxl

由EleutherAI開發
Pile-T5 XXL是基於T5x庫在The Pile數據集上訓練的編碼器-解碼器模型,採用類似原始T5模型的MLM目標,訓練了200萬步(約2萬億token)。
下載量 44
發布時間 : 1/16/2024

模型概述

Pile-T5主要面向研究用途,其學習的英語內部表徵可用於提取下游任務特徵。除科研外,用戶可根據Apache 2.0許可證對模型進行微調部署。

模型特點

大規模訓練
在The Pile數據集上訓練了200萬步,約2萬億token,具有強大的語言理解能力。
高效架構
採用T5x的可擴展模型架構,借鑑了UMT5的實現,使用LlamaTokenizer。
研究導向
主要面向研究用途,適合提取下游任務特徵和進行微調實驗。

模型能力

文本生成
文本掩碼預測
下游任務特徵提取

使用案例

學術研究
語言模型研究
用於研究大規模語言模型的內部表徵和行為特性。
下游任務微調
作為預訓練模型,可針對特定任務進行微調。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase