開源Pythia-1b-deduped語言模型 - 助力可解釋性研究好幫手

首頁

Pythia 1b Deduped

由EleutherAI開發

Pythia-10億去重版是EleutherAI開發的可解釋性研究專用語言模型，基於去重Pile數據集訓練，採用Transformer架構，參數規模10億

大型語言模型

Transformers

英語開源協議:Apache-2.0 #可解釋性研究 #英語文本生成 #去重數據集訓練

下載量 19.89k

發布時間 : 2/14/2023

模型概述

該模型是Pythia可擴展套件的一部分，專為大型語言模型行為研究設計，提供154個訓練檢查點以支持科學分析

模型特點

完整訓練軌跡

提供154個檢查點（包括初始step0和密集日誌間隔檢查點），支持訓練動態研究

數據去重處理

使用全局去重後的Pile數據集訓練，減少數據重複對模型的影響

科學實驗設計

嚴格控制的訓練流程和超參數，便於與套件內其他規模模型對比研究

模型能力

英語文本生成

語言模型行為分析

可解釋性研究

使用案例

學術研究

模型行為分析

研究語言模型在不同訓練階段的性能變化

提供量化評估指標（如LAMBADA準確率）

偏見研究

分析模型生成文本中的社會偏見

🚀 Pythia Scaling Suite

Pythia Scaling Suite 是一組為促進可解釋性研究而開發的模型(詳見論文)。它包含兩組各八個模型，模型大小分別為 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。對於每個大小的模型，都有兩個版本：一個在 Pile 數據集上訓練，另一個在 Pile 數據集進行全局去重後訓練。所有 8 種模型大小都在完全相同的數據上，以完全相同的順序進行訓練。我們還為每個模型提供了 154 箇中間檢查點，這些檢查點作為分支託管在 Hugging Face 上。

Pythia 模型套件旨在推動大型語言模型的科學研究，特別是可解釋性研究。儘管設計目標並非以提升下游性能為核心，但我們發現這些模型達到或超越了類似大小模型的性能，例如 OPT 和 GPT - Neo 套件中的模型。

先前早期版本發佈和命名約定的詳細信息。

此前，我們向公眾發佈了 Pythia 套件的早期版本。然而，為了解決一些超參數差異問題，我們決定重新訓練該模型套件。此模型卡片列出了更改內容；更多討論請參閱 Pythia 論文的附錄 B。我們發現兩個 Pythia 版本在基準測試性能上沒有差異。舊模型仍然可用，但如果您剛開始使用 Pythia，我們建議使用重新訓練的套件。
這是當前版本。

請注意，Pythia 套件中的所有模型在 2023 年 1 月進行了重命名。為清晰起見，本模型卡片中提供了一個對比新舊名稱的表格，以及確切的參數數量。

🚀 快速開始

Pythia 模型可以通過以下代碼加載和使用，以下是 pythia - 70m - deduped 第三個檢查點的示例：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

分支 143000 與每個模型 main 分支上的模型檢查點完全對應。
有關如何使用所有 Pythia 模型的更多信息，請參閱 GitHub 文檔。

✨ 主要特性

促進研究：專為促進大型語言模型的可解釋性研究而設計。
多種模型規模：包含 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B 等多種模型大小。
數據一致性：所有模型在相同數據上以相同順序訓練。
豐富檢查點：為每個模型提供 154 箇中間檢查點，便於研究不同訓練階段的模型表現。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高級用法

文檔未提及高級用法示例，故跳過此部分。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	EleutherAI
模型類型	基於 Transformer 的語言模型
語言	英語
更多信息	Pythia 的 GitHub 倉庫提供訓練過程、配置文件和使用細節。詳見論文獲取更多評估和實現細節。
庫	GPT - NeoX
許可證	Apache 2.0
聯繫方式	若要詢問有關此模型的問題，請加入 EleutherAI Discord，並在 `#release - discussion` 中發佈。在 EleutherAI Discord 中提問之前，請先閱讀現有的 Pythia 文檔。如需一般通信，請發送郵件至 contact@eleuther.ai。

Pythia 模型	非嵌入參數	層數	模型維度	頭數	批量大小	學習率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

Pythia 套件 的工程細節。給定大小的去重和未去重模型具有相同的超參數。“等效” 模型具有 完全相同 的架構和相同數量的非嵌入參數。

使用與限制

預期用途

Pythia 的主要預期用途是研究大型語言模型的行為、功能和侷限性。該套件旨在為進行科學實驗提供一個可控的環境。我們還為每個模型提供了 154 個檢查點：初始 step0、10 個對數間隔的檢查點 step{1,2,4...512} 以及 143 個從 step1000 到 step143000 的均勻間隔檢查點。這些檢查點作為分支託管在 Hugging Face 上。請注意，分支 143000 與每個模型 main 分支上的模型檢查點完全對應。

只要您的使用符合 Apache 2.0 許可證，您也可以進一步微調並調整 Pythia - 1B - deduped 以進行部署。Pythia 模型可與 Hugging Face Transformers 庫配合使用。如果您決定使用預訓練的 Pythia - 1B - deduped 作為微調模型的基礎，請自行進行風險和偏差評估。

非預期用途

Pythia 套件 不適合 用於部署。它本身不是一個產品，不能用於面向人類的交互。例如，該模型可能會生成有害或冒犯性的文本。請評估與您特定用例相關的風險。

Pythia 模型僅支持英語，不適合用於翻譯或生成其他語言的文本。

Pythia - 1B - deduped 未針對語言模型常見的下游應用場景進行微調，例如撰寫特定體裁的散文或商業聊天機器人。這意味著 Pythia - 1B - deduped 不會像 ChatGPT 這樣的產品那樣對給定提示做出響應。這是因為與該模型不同，ChatGPT 使用了諸如基於人類反饋的強化學習 (RLHF) 等方法進行微調，以更好地 “遵循” 人類指令。

侷限性和偏差

大型語言模型的核心功能是接受一段文本並預測下一個標記。模型使用的標記不一定能生成最 “準確” 的文本。切勿依賴 Pythia - 1B - deduped 生成事實準確的輸出。

該模型在 the Pile 數據集上進行訓練，該數據集已知包含褻瀆性和低俗或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差討論，請參閱 Pile 論文的第 6 節。即使提示本身不包含任何明確的冒犯性內容，Pythia - 1B - deduped 也可能會生成社會不可接受或不良的文本。

如果您計劃使用通過例如託管推理 API 生成的文本，我們建議在向他人展示之前由人工對該語言模型的輸出進行審核。請告知您的受眾該文本是由 Pythia - 1B - deduped 生成的。

訓練

訓練數據

Pythia - 1B - deduped 在 Pile 數據集 進行全局去重後 進行訓練。
The Pile 是一個 825GiB 的通用英語數據集。它由 EleutherAI 專門為訓練大型語言模型而創建。它包含來自 22 個不同來源的文本，大致分為五類：學術寫作（如 arXiv）、互聯網（如 CommonCrawl）、散文（如 Project Gutenberg）、對話（如 YouTube 字幕）和其他（如 GitHub、安然郵件）。有關所有數據源的細分、方法和倫理影響的討論，請參閱 Pile 論文。有關 Pile 及其組成數據集的更詳細文檔，請參考數據說明書。Pile 可以從官方網站或 [社區鏡像](https://the - eye.eu/public/AI/pile/) 下載。

訓練過程

所有模型都在完全相同的數據上，以完全相同的順序進行訓練。每個模型在訓練期間處理了 299,892,736,000 個標記，並且每 2,097,152,000 個標記保存一次檢查點，從 step1000 到 step143000（與 main 相同）均勻分佈，每個模型共保存 143 個檢查點。此外，我們還提供了頻繁的早期檢查點：step0 和 step{1,2,4...512}。這相當於未去重模型在 Pile 上訓練不到 1 個 epoch，而去重後的 Pile 上訓練約 1.5 個 epoch。

所有 Pythia 模型以 2M（2,097,152 個標記）的批量大小訓練了 143000 步。
有關訓練過程的更多詳細信息，包括 [如何復現](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)，請參閱 GitHub。
Pythia 使用與 [GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b) 相同的分詞器。

評估

所有 16 個 Pythia 模型都使用 [LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness) 進行了評估。您可以在 GitHub 倉庫的 results/json/* 中按模型和步驟訪問評估結果。
展開以下部分，查看所有 Pythia 和 Pythia - deduped 模型與 OPT 和 BLOOM 相比的評估結果圖。

LAMBADA – OpenAI

物理交互：問答 (PIQA)

WinoGrande

AI2 推理挑戰 — 簡易集

SciQ

變更日誌

本節比較了先前發佈的 Pythia v0 與當前模型之間的差異。有關這些更改及其背後的動機的更多討論，請參閱 Pythia 論文的附錄 B。我們發現重新訓練 Pythia 對基準測試性能沒有影響。

所有模型現在都以 2M 標記的統一批量大小進行訓練。此前，參數大小為 160M、410M 和 1.4B 的模型以 4M 標記的批量大小進行訓練。
除了每 1000 個訓練步驟保存一次檢查點外，我們還在初始化時（步驟 0）和步驟 {1,2,4,8,16,32,64,128,256,512} 增加了檢查點。
新的重新訓練套件使用了 Flash Attention。
我們糾正了原始套件中存在的一個小不一致問題：所有 2.8B 參數或更小的模型的學習率 (LR) 調度會衰減到起始 LR 率的 10% 作為最小 LR，但 6.9B 和 12B 模型的 LR 調度會衰減到最小 LR 為 0。在重新進行的訓練運行中，我們糾正了這個不一致問題：現在所有模型的 LR 都衰減到最大 LR 的 0.1 倍作為最小值。

命名約定和參數數量

Pythia 模型在 2023 年 1 月進行了重命名。舊的命名約定可能仍意外地存在於某些文檔中。當前的命名約定（70M、160M 等）基於總參數數量。

當前 Pythia 後綴	舊後綴	總參數	非嵌入參數
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200