🚀 Pile-T5 XXL
Pile-T5 XXL 是一個基於編碼器 - 解碼器架構的模型,它使用 T5x 庫在 the Pile 數據集上進行訓練。該模型採用了與原始 T5 模型類似的 MLM 目標,訓練了 200 萬步,處理了大約 2 萬億個標記。Pile-T5 XXL 的 Hugging Face 版本借鑑了 UMT5 的模型實現,它使用了 T5x 的可擴展模型實現,並採用了 LlamaTokenizer
。
✨ 主要特性
- 基於 Transformer 架構:採用先進的 Transformer 架構,具備強大的語言處理能力。
- 大規模訓練:在 825GiB 的英文通用數據集 the Pile 上進行訓練,學習到豐富的語言知識。
- 可擴展性:使用 T5x 庫的可擴展模型實現,便於進一步開發和優化。
📦 安裝指南
Pile-T5 可以使用 AutoModelForSeq2SeqLM
功能進行加載:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於 Transformer 的語言模型 |
訓練數據 |
the Pile,一個 825GiB 的英文通用數據集,包含來自 22 個不同來源的文本,大致分為學術寫作、互聯網、散文、對話和其他雜項五類。 |
開發者 |
EleutherAI |
語言 |
英語 |
許可證 |
Apache 2.0 |
超參數詳情
超參數 |
值 |
nparameters |
11135426560 |
nencoder layers |
24 |
ndecoder layers |
24 |
dmodel |
10240 |
demb |
4096 |
nheads |
64 |
dhead |
64 |
nvocab |
32128 |
序列長度 |
512 |
使用與限制
預期用途
Pile - T5 主要是為研究目的而開發的。它學習英語的內部表示,可用於提取對下游任務有用的特徵。除了科學用途外,只要您的使用符合 Apache 2.0 許可證,您還可以對 Pile - T5 進行進一步的微調並將其用於部署。該模型可與 Transformers 庫 配合使用。如果您決定使用預訓練的 Pile - T5 作為微調模型的基礎,請注意您需要進行自己的風險和偏差評估。
非預期用途
Pile - T5 不 適合直接部署。它不是一個產品,在沒有監督的情況下不能用於面向人類的交互。Pile - T5 沒有針對語言模型常見的下游任務進行微調,例如撰寫特定類型的散文或商業聊天機器人。這意味著 Pile - T5 可能不會像 ChatGPT 等產品那樣對給定的提示做出響應。這是因為與 Pile - T5 不同,ChatGPT 使用瞭如基於人類反饋的強化學習(RLHF)等方法進行微調,以更好地“理解”人類指令和對話。此外,該模型僅支持英語,因此不能用於翻譯或生成其他語言的文本。
侷限性和偏差
Pile - T5 的核心功能是接收一個部分被掩碼標記替換的文本字符串,並預測替換這些掩碼標記的標記序列。請記住,統計上最可能的標記序列不一定能產生最“準確”的文本。絕不要依賴 Pile - T5 來產生事實準確的輸出。該模型在 the Pile 數據集上進行訓練,該數據集包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差的討論,請參閱 the Pile 論文的第 6 節。即使提示本身不包含任何明確的冒犯性內容,Pile - T5 也可能產生社會不可接受或不良的文本。我們建議在將該模型的輸出呈現給人類讀者之前進行篩選。請告知您的受眾您正在使用人工智能生成的文本。
訓練
訓練數據集
the Pile 是一個 825GiB 的英文通用數據集,由 EleutherAI 專門為訓練大語言模型而創建。它包含來自 22 個不同來源的文本,大致分為五類:學術寫作(如 arXiv)、互聯網(如 CommonCrawl)、散文(如 Project Gutenberg)、對話(如 YouTube 字幕)和其他雜項(如 GitHub、Enron Emails)。有關所有數據源、方法以及倫理影響的詳細信息,請參閱 the Pile 論文。如需瞭解關於 the Pile 及其組成數據集的更詳細文檔,請參考 數據手冊。the Pile 可以從 官方網站 或 社區鏡像 下載。在用於訓練 Pile - T5 之前,the Pile 進行了去重處理。
訓練過程
Pile - T5 以大約 100 萬個標記的批量大小(每個批次包含 2048 個長度為 512 的序列)進行訓練,總共訓練了 200 萬步。訓練採用了跨度損壞目標。
訓練檢查點
Pile - T5 的中間檢查點可以在本倉庫中訪問。總共有 200 個檢查點,間隔為 10000 步。對於可用於使用 T5x 庫進行微調的 T5x 原生檢查點,請參考 此處。訓練損失(tfevent 格式)和驗證困惑度(jsonl 格式)可以在 此處 找到。
評估
Pile - T5 XXL 在 SuperGLUE、CodeXGLUE 上進行了評估。一個經過 Flan 微調的版本在 Flan Held In 任務、MMLU 和 BBH 上進行了評估。評估結果可在 博客文章 中查看。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}