🚀 Pile-T5 Large
Pile-T5 Large是一個編碼器-解碼器模型,它使用T5x庫在the Pile數據集上進行訓練。該模型採用類似於原始T5模型的MLM目標,訓練了200萬步,大約處理了2萬億個標記。Pile-T5 Large的Hugging Face版本借鑑了UMT5的模型實現,它使用了T5x可擴展的模型實現,並採用了LlamaTokenizer
。
✨ 主要特性
- 基於Transformer架構的語言模型,在大規模英文數據集上訓練。
- 採用T5x庫進行訓練,具有可擴展性。
- 借鑑UMT5的模型實現,使用
LlamaTokenizer
。
📦 安裝指南
Pile-T5可以使用AutoModelForSeq2SeqLM
功能進行加載:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-large")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於Transformer的語言模型 |
訓練數據 |
the Pile數據集,這是一個825GiB的英文通用數據集,包含來自22個不同來源的文本,大致分為學術寫作、互聯網、散文、對話和其他雜項五類。 |
模型超參數
超參數 |
值 |
nparameters |
783173632 |
nencoder layers |
24 |
ndecoder layers |
24 |
dmodel |
2816 |
demb |
1024 |
nheads |
16 |
dhead |
64 |
nvocab |
32128 |
序列長度 |
512 |
使用場景與限制
預期用途
Pile-T5主要為研究目的而開發。它學習英語的內部表示,可用於提取對下游任務有用的特徵。除科學用途外,只要使用符合Apache 2.0許可證,你還可以對Pile-T5進行進一步微調並部署。該模型可與Transformers庫配合使用。如果你決定使用預訓練的Pile-T5作為微調模型的基礎,請自行進行風險和偏差評估。
非預期用途
Pile-T5 不適合 直接部署。它不是一個產品,在沒有監督的情況下不能用於面向人類的交互。Pile-T5沒有針對語言模型常見的下游任務進行微調,如撰寫特定體裁的散文或商業聊天機器人。這意味著Pile-T5可能 不會 像ChatGPT等產品那樣對給定提示做出響應。因為與Pile-T5不同,ChatGPT使用了人類反饋強化學習(RLHF)等方法進行微調,以更好地“理解”人類指令和對話。此外,該模型僅支持英語,因此不能用於翻譯或生成其他語言的文本。
侷限性和偏差
Pile-T5的核心功能是對部分被掩碼標記替換的文本字符串進行處理,並預測替換這些掩碼標記的標記序列。但請記住,統計上最可能的標記序列不一定能產生最“準確”的文本。切勿依賴Pile-T5生成事實準確的輸出。該模型在the Pile數據集上進行訓練,該數據集包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差討論,請參閱the Pile論文的第6節。即使提示本身不包含任何明確的冒犯性內容,Pile-T5也可能產生社會不可接受或不良的文本。我們建議在將該模型的輸出呈現給人類讀者之前進行篩選,並告知受眾你使用的是人工智能生成的文本。
訓練
訓練數據集
the Pile是一個825GiB的英文通用數據集,由EleutherAI專門為訓練大語言模型而創建。它包含來自22個不同來源的文本,大致分為學術寫作(如arXiv)、互聯網(如CommonCrawl)、散文(如Project Gutenberg)、對話(如YouTube字幕)和其他雜項(如GitHub、Enron Emails)五類。有關所有數據源、方法和倫理影響的詳細信息,請參閱the Pile論文。如需更詳細的文檔,請查閱數據說明書。the Pile數據集可從官方網站或社區鏡像下載。在用於訓練Pile-T5之前,the Pile數據集進行了去重處理。
訓練過程
Pile-T5以約100萬個標記(每個批次2048個長度為512的序列)的批量大小進行訓練,總共訓練了200萬步。訓練採用了跨度損壞目標。
訓練檢查點
Pile-T5的中間檢查點可在本倉庫中獲取。總共有200個檢查點,間隔為10000步。如需可用於使用T5x庫進行微調的T5x原生檢查點,請參考此處。訓練損失(tfevent格式)和驗證困惑度(jsonl格式)可在此處找到。
評估
Pile-T5 Large在SuperGLUE、CodeXGLUE上進行了評估。一個經過Flan微調的版本在Flan Held In任務上進行了評估。結果可在博客文章中查看。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}
許可證
本模型採用Apache 2.0許可證。