pile-t5-xxl開源語言模型 - 助力文本處理與智能問答應用

首頁

Pile T5 Xxl

由EleutherAI開發

Pile-T5 XXL是基於T5x庫在The Pile數據集上訓練的編碼器-解碼器模型，採用類似原始T5模型的MLM目標，訓練了200萬步（約2萬億token）。

大型語言模型

Transformers

英語#英語文本重構 #大規模預訓練 #編碼器-解碼器架構

下載量 44

發布時間 : 1/16/2024

模型概述

Pile-T5主要面向研究用途，其學習的英語內部表徵可用於提取下游任務特徵。除科研外，用戶可根據Apache 2.0許可證對模型進行微調部署。

模型特點

大規模訓練

在The Pile數據集上訓練了200萬步，約2萬億token，具有強大的語言理解能力。

高效架構

採用T5x的可擴展模型架構，借鑑了UMT5的實現，使用LlamaTokenizer。

研究導向

主要面向研究用途，適合提取下游任務特徵和進行微調實驗。

模型能力

文本生成

文本掩碼預測

下游任務特徵提取

使用案例

學術研究

語言模型研究

用於研究大規模語言模型的內部表徵和行為特性。

下游任務微調

作為預訓練模型，可針對特定任務進行微調。

🚀 Pile-T5 XXL

Pile-T5 XXL 是一個基於編碼器 - 解碼器架構的模型，它使用 T5x 庫在 the Pile 數據集上進行訓練。該模型採用了與原始 T5 模型類似的 MLM 目標，訓練了 200 萬步，處理了大約 2 萬億個標記。Pile-T5 XXL 的 Hugging Face 版本借鑑了 UMT5 的模型實現，它使用了 T5x 的可擴展模型實現，並採用了 LlamaTokenizer。

✨ 主要特性

基於 Transformer 架構：採用先進的 Transformer 架構，具備強大的語言處理能力。
大規模訓練：在 825GiB 的英文通用數據集 the Pile 上進行訓練，學習到豐富的語言知識。
可擴展性：使用 T5x 庫的可擴展模型實現，便於進一步開發和優化。

📦 安裝指南

Pile-T5 可以使用 AutoModelForSeq2SeqLM 功能進行加載：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")

📚 詳細文檔

模型詳情

開發者：EleutherAI
模型類型：基於 Transformer 的語言模型
語言：英語
更多信息：可查看博客文章。關於訓練數據集的詳細信息，請參考 the Pile 論文及其數據手冊。
許可證：Apache 2.0
聯繫方式：若要詢問關於此模型的問題，請加入 EleutherAI Discord，並在 #release-discussion 中發佈問題。在 Discord 上詢問模型相關問題之前，請先閱讀現有的 GPT - NeoX - 20B 文檔。如需一般通信，請發送郵件至 contact@eleuther.ai。

屬性	詳情
模型類型	基於 Transformer 的語言模型
訓練數據	the Pile，一個 825GiB 的英文通用數據集，包含來自 22 個不同來源的文本，大致分為學術寫作、互聯網、散文、對話和其他雜項五類。
開發者	EleutherAI
語言	英語
許可證	Apache 2.0

超參數詳情

超參數	值
n_parameters	11135426560
n_{encoder layers}	24
n_{decoder layers}	24
d_model	10240
d_emb	4096
n_heads	64
d_head	64
n_vocab	32128
序列長度	512

使用與限制

預期用途

Pile - T5 主要是為研究目的而開發的。它學習英語的內部表示，可用於提取對下游任務有用的特徵。除了科學用途外，只要您的使用符合 Apache 2.0 許可證，您還可以對 Pile - T5 進行進一步的微調並將其用於部署。該模型可與 Transformers 庫配合使用。如果您決定使用預訓練的 Pile - T5 作為微調模型的基礎，請注意您需要進行自己的風險和偏差評估。

非預期用途

Pile - T5 不適合直接部署。它不是一個產品，在沒有監督的情況下不能用於面向人類的交互。Pile - T5 沒有針對語言模型常見的下游任務進行微調，例如撰寫特定類型的散文或商業聊天機器人。這意味著 Pile - T5 可能不會像 ChatGPT 等產品那樣對給定的提示做出響應。這是因為與 Pile - T5 不同，ChatGPT 使用瞭如基於人類反饋的強化學習（RLHF）等方法進行微調，以更好地“理解”人類指令和對話。此外，該模型僅支持英語，因此不能用於翻譯或生成其他語言的文本。

侷限性和偏差

Pile - T5 的核心功能是接收一個部分被掩碼標記替換的文本字符串，並預測替換這些掩碼標記的標記序列。請記住，統計上最可能的標記序列不一定能產生最“準確”的文本。絕不要依賴 Pile - T5 來產生事實準確的輸出。該模型在 the Pile 數據集上進行訓練，該數據集包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差的討論，請參閱 the Pile 論文的第 6 節。即使提示本身不包含任何明確的冒犯性內容，Pile - T5 也可能產生社會不可接受或不良的文本。我們建議在將該模型的輸出呈現給人類讀者之前進行篩選。請告知您的受眾您正在使用人工智能生成的文本。

訓練

訓練數據集

the Pile 是一個 825GiB 的英文通用數據集，由 EleutherAI 專門為訓練大語言模型而創建。它包含來自 22 個不同來源的文本，大致分為五類：學術寫作（如 arXiv）、互聯網（如 CommonCrawl）、散文（如 Project Gutenberg）、對話（如 YouTube 字幕）和其他雜項（如 GitHub、Enron Emails）。有關所有數據源、方法以及倫理影響的詳細信息，請參閱 the Pile 論文。如需瞭解關於 the Pile 及其組成數據集的更詳細文檔，請參考數據手冊。the Pile 可以從官方網站或社區鏡像下載。在用於訓練 Pile - T5 之前，the Pile 進行了去重處理。

訓練過程

Pile - T5 以大約 100 萬個標記的批量大小（每個批次包含 2048 個長度為 512 的序列）進行訓練，總共訓練了 200 萬步。訓練採用了跨度損壞目標。

訓練檢查點

Pile - T5 的中間檢查點可以在本倉庫中訪問。總共有 200 個檢查點，間隔為 10000 步。對於可用於使用 T5x 庫進行微調的 T5x 原生檢查點，請參考此處。訓練損失（tfevent 格式）和驗證困惑度（jsonl 格式）可以在此處找到。

評估

Pile - T5 XXL 在 SuperGLUE、CodeXGLUE 上進行了評估。一個經過 Flan 微調的版本在 Flan Held In 任務、MMLU 和 BBH 上進行了評估。評估結果可在博客文章中查看。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}