Pythia-410m開源語言模型 - 助力可解釋性研究，多參數多檢查點可選

首頁

Pythia 410m

由EleutherAI開發

Pythia是EleutherAI開發的一系列因果語言模型，專為可解釋性研究設計，包含從7000萬到120億參數的8種規模，提供154個訓練檢查點

大型語言模型

Transformers

英語開源協議:Apache-2.0 #因果語言模型 #可解釋性研究 #多檢查點追蹤

下載量 83.28k

發布時間 : 2/13/2023

模型概述

基於Transformer的英語語言模型，採用GPT-NeoX架構，訓練於Pile數據集，主要用於研究大語言模型的行為和功能

模型特點

完整訓練檢查點

提供154個訓練中間檢查點，便於研究模型演化過程

科學實驗設計

所有規模模型使用相同訓練數據和順序，確保實驗可比性

性能對標

達到或超越同類規模模型(如OPT、GPT-Neo)的性能

去重對比

每個規模提供原始數據和全局去重數據訓練的兩種版本

模型能力

英語文本生成

語言模型行為研究

模型可解釋性分析

使用案例

學術研究

語言模型行為分析

研究模型在不同訓練階段的參數變化規律

可通過154個檢查點追蹤模型能力發展

去重數據影響研究

比較原始數據與去重數據訓練模型的性能差異

技術驗證

中等規模模型基準測試

作為4億參數級別的參考模型進行技術對比

性能優於同類OPT-350M模型

🚀 Pythia-410M

“Pythia Scaling Suite”是一組旨在促進可解釋性研究的模型集合。它包含兩組各八個不同規模的模型，為大語言模型的研究提供了豐富資源。

🚀 快速開始

Pythia模型可以通過以下代碼加載和使用，以下是pythia - 70m - deduped第三個檢查點的示例：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

修訂/分支step143000 與每個模型main分支上的模型檢查點完全對應。有關如何使用所有Pythia模型的更多信息，請參閱 GitHub上的文檔。

✨ 主要特性

促進研究：Pythia Scaling Suite 專門為促進大語言模型的科學研究而設計，尤其是可解釋性研究。
模型多樣：包含兩組各八個不同規模的模型（70M、160M、410M、1B、1.4B、2.8B、6.9B和12B），每個規模都有在Pile數據集上訓練和在全局去重後的Pile數據集上訓練的兩個模型。
檢查點豐富：每個模型提供154箇中間檢查點，託管在Hugging Face上作為分支，方便研究不同階段的模型表現。
性能出色：儘管設計目標並非以提升下游性能為核心，但模型表現與同規模的其他模型（如OPT和GPT - Neo套件中的模型）相當或更優。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高級用法

文檔未提及高級用法示例，故跳過此部分。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	EleutherAI
模型類型	基於Transformer的語言模型
語言	英語
更多信息	Pythia的GitHub倉庫提供訓練過程、配置文件和使用細節。查看論文獲取更多評估和實現細節。
庫	[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
許可證	Apache 2.0
聯繫信息	若有關於此模型的問題，請加入 EleutherAI Discord，並在 `#release - discussion` 中提問。在提問前請閱讀現有的 Pythia 文檔。如需一般通信，請發送郵件至 contact@eleuther.ai。

Pythia模型	非嵌入參數	層數	模型維度	頭數	批量大小	學習率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

使用和限制

預期用途

Pythia的主要預期用途是研究大語言模型的行為、功能和侷限性。該套件旨在為進行科學實驗提供一個可控的環境。每個模型還提供154個檢查點：初始 step0、10個對數間隔的檢查點 step{1,2,4...512} 以及從 step1000 到 step143000 的143個均勻間隔的檢查點。這些檢查點託管在Hugging Face上作為分支。請注意，分支 143000 與每個模型 main 分支上的模型檢查點完全對應。

你也可以進一步微調並調整Pythia - 410M以進行部署，只要你的使用符合Apache 2.0許可證。Pythia模型可與Hugging Face的 Transformers庫配合使用。如果你決定使用預訓練的Pythia - 410M作為微調模型的基礎，請自行進行風險和偏差評估。

非預期用途

Pythia套件不用於部署。它本身不是一個產品，不能用於面向人類的交互。例如，該模型可能會生成有害或冒犯性的文本。請評估與你特定用例相關的風險。

Pythia模型僅支持英語，不適合用於翻譯或生成其他語言的文本。

Pythia - 410M未針對語言模型常見的下游場景進行微調，如撰寫散文或商業聊天機器人。這意味著Pythia - 410M不會像ChatGPT這樣的產品那樣對給定提示做出響應。這是因為與該模型不同，ChatGPT使用瞭如基於人類反饋的強化學習（RLHF）等方法進行微調，以更好地“遵循”人類指令。

侷限性和偏差

大語言模型的核心功能是接受一串文本並預測下一個標記。模型使用的標記不一定能產生最“準確”的文本。切勿依賴Pythia - 410M生成事實準確的輸出。

該模型在 Pile 數據集上進行訓練，該數據集已知包含褻瀆性和淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差的討論，請參閱 Pile論文的第6節。Pythia - 410M可能會產生社會不可接受或不良的文本，即使提示本身不包含任何明確的冒犯性內容。

如果你打算使用通過例如託管推理API生成的文本，我們建議在將此語言模型的輸出呈現給其他人之前，由人工對其進行審核。請告知你的受眾該文本是由Pythia - 410M生成的。

訓練

訓練數據

Pile 是一個825GiB的英語通用數據集，由EleutherAI專門為訓練大語言模型而創建。它包含來自22個不同來源的文本，大致分為五類：學術寫作（如arXiv）、互聯網（如CommonCrawl）、散文（如Project Gutenberg）、對話（如YouTube字幕）和其他（如GitHub、安然郵件）。有關所有數據源的細分、方法和倫理影響的討論，請參閱 Pile論文。有關Pile及其組成數據集的更詳細文檔，請參閱數據表。Pile可以從官方網站或 [社區鏡像](https://the - eye.eu/public/AI/pile/) 下載。

在用於訓練Pythia - 410M之前，Pile數據集未進行去重處理。

訓練過程

所有模型都在完全相同的數據上以完全相同的順序進行訓練。每個模型在訓練期間處理了299,892,736,000個標記，並且每個模型每2,097,152,000個標記保存143個檢查點，這些檢查點在訓練過程中均勻分佈，從 step1000 到 step143000（與 main 相同）。此外，我們還提供頻繁的早期檢查點：step0 和 step{1,2,4...512}。

這相當於非去重模型在Pile數據集上訓練略少於1個週期，而去重後的Pile數據集上訓練約1.5個週期。

所有 Pythia 模型以2M（2,097,152個標記）的批量大小訓練了143000步。有關訓練過程的更多詳細信息，包括 [如何重現](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)，請參閱 GitHub。Pythia使用與 [GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b) 相同的分詞器。

評估

所有16個 Pythia 模型都使用 [LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness) 進行評估。你可以在 GitHub倉庫的 results/json/* 中按模型和步驟訪問評估結果。

展開以下部分，查看所有Pythia和Pythia - deduped模型與OPT和BLOOM相比的評估結果圖。

LAMBADA – OpenAI

Physical Interaction: Question Answering (PIQA)

WinoGrande

AI2 Reasoning Challenge—Easy Set

SciQ

變更日誌

本節比較了之前發佈的 Pythia v0 與當前模型之間的差異。有關這些更改及其背後動機的進一步討論，請參閱Pythia論文的附錄B。我們發現重新訓練Pythia對基準性能沒有影響。

所有模型現在都以2M標記的統一批量大小進行訓練。以前，參數為160M、410M和1.4B的模型以4M標記的批量大小進行訓練。
除了每1000個訓練步驟外，我們還在初始化時（step 0）和步驟 {1,2,4,8,16,32,64,128,256,512} 添加了檢查點。
新的重新訓練套件中使用了Flash Attention。
我們糾正了原始套件中存在的一個小不一致問題：所有參數為2.8B或更小的模型的學習率（LR）調度衰減到起始LR率的10%作為最小LR，但6.9B和12B模型都使用了衰減到最小LR為0的LR調度。在重新訓練運行中，我們糾正了這個不一致問題：現在所有模型的LR都衰減到其最大LR的0.1倍作為最小值。

命名約定和參數數量

Pythia 模型在2023年1月進行了重命名。舊的命名約定可能仍意外存在於某些文檔中。當前的命名約定（70M、160M等）基於總參數數量。

當前Pythia後綴	舊後綴	總參數	非嵌入參數
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200