Pile-T5 Large開源模型 - 免費實現英語文本到文本高質量生成

首頁

Pile T5 Large

由EleutherAI開發

Pile-T5 Large 是基於 T5x 庫在 The Pile 數據集上訓練的編碼器-解碼器模型，主要用於英語文本到文本生成任務。

大型語言模型

Transformers

英語#英語文本生成 #編碼器-解碼器架構 #大規模預訓練

下載量 112

發布時間 : 9/1/2023

模型概述

Pile-T5 Large 是一個基於 Transformer 的語言模型，通過掩碼語言建模目標訓練，適用於英語文本生成和特徵提取任務。

模型特點

大規模訓練數據

在 825GiB 的 The Pile 數據集上訓練，包含多樣化的英語文本來源。

編碼器-解碼器架構

採用 T5 風格的編碼器-解碼器結構，適合序列到序列任務。

長序列處理能力

支持 512 標記的序列長度，適合處理較長文本。

模型能力

文本生成

特徵提取

掩碼語言建模

使用案例

研究

語言模型研究

用於研究大規模語言模型的行為和特性。

下游任務特徵提取

作為基礎模型提取特徵用於其他 NLP 任務。

🚀 Pile-T5 Large

Pile-T5 Large是一個編碼器-解碼器模型，它使用T5x庫在the Pile數據集上進行訓練。該模型採用類似於原始T5模型的MLM目標，訓練了200萬步，大約處理了2萬億個標記。Pile-T5 Large的Hugging Face版本借鑑了UMT5的模型實現，它使用了T5x可擴展的模型實現，並採用了LlamaTokenizer。

✨ 主要特性

基於Transformer架構的語言模型，在大規模英文數據集上訓練。
採用T5x庫進行訓練，具有可擴展性。
借鑑UMT5的模型實現，使用LlamaTokenizer。

📦 安裝指南

Pile-T5可以使用AutoModelForSeq2SeqLM功能進行加載：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-large")

📚 詳細文檔

模型詳情

開發者：EleutherAI
模型類型：基於Transformer的語言模型
語言：英語
更多信息：博客文章。有關訓練數據集的詳細信息，請參閱the Pile論文及其數據說明書。
許可證：Apache 2.0
聯繫方式：若要詢問有關此模型的問題，請加入EleutherAI Discord，並在#release-discussion中發佈。在Discord上詢問模型相關問題之前，請先閱讀現有的GPT-NeoX - 20B文檔。如需一般通信，請發送郵件至contact@eleuther.ai。

屬性	詳情
模型類型	基於Transformer的語言模型
訓練數據	the Pile數據集，這是一個825GiB的英文通用數據集，包含來自22個不同來源的文本，大致分為學術寫作、互聯網、散文、對話和其他雜項五類。

模型超參數

超參數	值
n_parameters	783173632
n_{encoder layers}	24
n_{decoder layers}	24
d_model	2816
d_emb	1024
n_heads	16
d_head	64
n_vocab	32128
序列長度	512

使用場景與限制

預期用途

Pile-T5主要為研究目的而開發。它學習英語的內部表示，可用於提取對下游任務有用的特徵。除科學用途外，只要使用符合Apache 2.0許可證，你還可以對Pile-T5進行進一步微調並部署。該模型可與Transformers庫配合使用。如果你決定使用預訓練的Pile-T5作為微調模型的基礎，請自行進行風險和偏差評估。

非預期用途

Pile-T5 不適合 直接部署。它不是一個產品，在沒有監督的情況下不能用於面向人類的交互。Pile-T5沒有針對語言模型常見的下游任務進行微調，如撰寫特定體裁的散文或商業聊天機器人。這意味著Pile-T5可能不會像ChatGPT等產品那樣對給定提示做出響應。因為與Pile-T5不同，ChatGPT使用了人類反饋強化學習（RLHF）等方法進行微調，以更好地“理解”人類指令和對話。此外，該模型僅支持英語，因此不能用於翻譯或生成其他語言的文本。

侷限性和偏差

Pile-T5的核心功能是對部分被掩碼標記替換的文本字符串進行處理，並預測替換這些掩碼標記的標記序列。但請記住，統計上最可能的標記序列不一定能產生最“準確”的文本。切勿依賴Pile-T5生成事實準確的輸出。該模型在the Pile數據集上進行訓練，該數據集包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差討論，請參閱the Pile論文的第6節。即使提示本身不包含任何明確的冒犯性內容，Pile-T5也可能產生社會不可接受或不良的文本。我們建議在將該模型的輸出呈現給人類讀者之前進行篩選，並告知受眾你使用的是人工智能生成的文本。

訓練

訓練數據集

the Pile是一個825GiB的英文通用數據集，由EleutherAI專門為訓練大語言模型而創建。它包含來自22個不同來源的文本，大致分為學術寫作（如arXiv）、互聯網（如CommonCrawl）、散文（如Project Gutenberg）、對話（如YouTube字幕）和其他雜項（如GitHub、Enron Emails）五類。有關所有數據源、方法和倫理影響的詳細信息，請參閱the Pile論文。如需更詳細的文檔，請查閱數據說明書。the Pile數據集可從官方網站或社區鏡像下載。在用於訓練Pile-T5之前，the Pile數據集進行了去重處理。

訓練過程

Pile-T5以約100萬個標記（每個批次2048個長度為512的序列）的批量大小進行訓練，總共訓練了200萬步。訓練採用了跨度損壞目標。

訓練檢查點

Pile-T5的中間檢查點可在本倉庫中獲取。總共有200個檢查點，間隔為10000步。如需可用於使用T5x庫進行微調的T5x原生檢查點，請參考此處。訓練損失（tfevent格式）和驗證困惑度（jsonl格式）可在此處找到。

評估

Pile-T5 Large在SuperGLUE、CodeXGLUE上進行了評估。一個經過Flan微調的版本在Flan Held In任務上進行了評估。結果可在博客文章中查看。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}