GPT-NeoX-20B開源語言模型 - 免費支持文本生成、交互對話等應用

首頁

Gpt Neox 20b

由EleutherAI開發

GPT-NeoX-20B是一個擁有200億參數的開源自迴歸語言模型，基於GPT-3架構設計，在the Pile數據集上訓練而成。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #200億參數大模型 #英語自迴歸生成 #科研級語言模型

下載量 345.06k

發布時間 : 4/7/2022

模型概述

GPT-NeoX-20B是一個大型英語語言模型，主要用於研究目的，能夠生成連貫的文本並學習語言內部表示。

模型特點

大規模參數

擁有200億參數，提供強大的語言理解和生成能力

開源模型

基於Apache 2.0許可證發佈，允許研究和商業用途

GPT-3架構

採用與GPT-3相似的Transformer架構設計

旋轉位置嵌入

使用RoPE(Rotary Position Embedding)進行位置編碼

模型能力

英語文本生成

語言理解

文本補全

語言特徵提取

使用案例

研究

語言模型研究

用於研究大規模語言模型的行為和特性

下游任務特徵提取

作為基礎模型提取特徵用於其他NLP任務

應用開發

文本生成應用

經過微調後可用於開發文本生成類應用

🚀 GPT-NeoX-20B

GPT-NeoX-20B是一個擁有200億參數的自迴歸語言模型，它基於GPT-NeoX庫在the Pile數據集上訓練而成。該模型的架構有意模仿GPT - 3，幾乎與GPT - J - 6B相同。其訓練數據集包含大量英文文本，體現了該模型的通用性質。有關模型架構（包括與GPT - 3的差異）、訓練過程和額外評估的詳細信息，請參閱相關論文。

✨ 主要特性

大規模參數：擁有200億參數，能夠學習到豐富的語言知識和模式。
架構相似：架構與GPT - 3相似，且幾乎與GPT - J - 6B相同，便於進行對比和研究。
通用數據集訓練：在包含多種來源英文文本的the Pile數據集上訓練，具有較強的通用性。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	EleutherAI
模型類型	基於Transformer的語言模型
語言	英文
更多信息	GPT - NeoX - 20B：一個開源自迴歸語言模型。有關訓練數據集的詳細信息，請參閱the Pile論文及其數據說明書。
許可證	Apache 2.0
聯繫方式	若要詢問有關此模型的問題，請加入EleutherAI Discord，並在`#release - discussion`中發佈問題。在Discord上詢問模型相關問題之前，請先閱讀現有的GPT - NeoX - 20B文檔。如需一般通信，請發送郵件至contact@eleuther.ai。

超參數	值
n_parameters	20554567680
n_layers	44
d_model	6144
n_heads	64
d_head	96
n_vocab	50257
序列長度	2048
學習率	0.97 x 10^-5
位置編碼	旋轉位置嵌入（RoPE）

使用場景與限制

預期用途

GPT - NeoX - 20B主要用於研究目的。它學習英語的內部表示，可用於提取對下游任務有用的特徵。

除科學用途外，只要符合Apache 2.0許可證，你還可以對GPT - NeoX - 20B進行進一步微調並部署。該模型可與Transformers庫配合使用。如果你決定使用預訓練的GPT - NeoX - 20B作為微調模型的基礎，請注意需要自行進行風險和偏差評估。

非預期用途

GPT - NeoX - 20B不適合直接部署。它不是一個產品，在沒有監督的情況下不能用於面向人類的交互。

GPT - NeoX - 20B未針對語言模型常用的下游任務進行微調，如撰寫特定體裁的散文或商業聊天機器人。這意味著GPT - NeoX - 20B可能不會像ChatGPT等產品那樣對給定提示做出響應。這是因為與GPT - NeoX - 20B不同，ChatGPT使用瞭如基於人類反饋的強化學習（RLHF）等方法進行微調，以更好地“理解”人類指令和對話。

該模型僅支持英文，因此不能用於翻譯或生成其他語言的文本。

侷限性和偏差

GPT - NeoX - 20B的核心功能是接收一段文本並預測下一個標記。請記住，統計上最可能的下一個標記不一定能產生最“準確”的文本。切勿依賴GPT - NeoX - 20B生成事實準確的輸出。

該模型在the Pile數據集上訓練，該數據集已知包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差的討論，請參閱the Pile論文的第6節。即使提示本身不包含任何明確的冒犯性內容，GPT - NeoX - 20B也可能產生社會不可接受或不良的文本。

我們建議在將該模型的輸出呈現給人類讀者之前進行篩選。請告知你的受眾你使用的是人工智能生成的文本。

使用方法

如果你只是想嘗試一些提示，可以查看這個遊樂場。

可以使用AutoModelForCausalLM功能加載GPT - NeoX - 20B：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b")

訓練

訓練數據集

the Pile是一個825GiB的通用英文數據集，由EleutherAI專門為訓練大語言模型而創建。它包含來自22個不同來源的文本，大致分為五類：學術寫作（如arXiv）、互聯網（如CommonCrawl）、散文（如Project Gutenberg）、對話（如YouTube字幕）和其他（如GitHub、安然郵件）。有關所有數據源的細分、方法和倫理影響的討論，請參閱the Pile論文。有關the Pile及其組成數據集的更詳細文檔，請參閱數據說明書。可以從官方網站或社區鏡像下載the Pile。

在用於訓練GPT - NeoX - 20B之前，the Pile未進行去重處理。

訓練過程

GPT - NeoX - 20B以大約315萬個標記（每個序列2048個標記，共1538個序列）的批量大小進行訓練，總共訓練了150000步。使用張量並行和流水線並行將模型分佈到多個GPU上。有關訓練過程的更多詳細信息，請參閱相關論文的第3節。

評估

模型	OpenAI的LAMBADA	SciQ	PIQA	TriviaQA	ARC（挑戰）
GPT - J - 6B	0.683 ± 0.006	0.910 ± 0.009	0.752 ± 0.010	0.170 ± 0.004	0.340 ± 0.014
FairSeq 6.7B	0.673 ± 0.007	0.895 ± 0.010	0.762 ± 0.010	0.221 ± 0.004	0.329 ± 0.014
GPT - 3 Curie	0.693 ± 0.006	0.918 ± 0.009	0.767 ± 0.010	0.196 ± 0.004	0.334 ± 0.014
FairSeq 13B	0.709 ± 0.006	0.910 ± 0.009	0.769 ± 0.010	0.270 ± 0.004	0.345 ± 0.014
GPT - NeoX - 20B	0.720 ± 0.006	0.928 ± 0.008	0.779 ± 0.010	0.259 ± 0.004	0.380 ± 0.014
GPT - 3 DaVinci	0.752 ± 0.006	0.949 ± 0.007	0.791 ± 0.009	0.409 ± 0.005	0.435 ± 0.014

在選定自然語言任務上的零樣本性能

這是評估結果的大幅簡化版本。GPT - NeoX - 20B論文的附錄D比較了更多模型大小，幷包含額外的評估，包括零樣本和五樣本自然語言任務、零樣本和五樣本基礎算術和數學任務以及零樣本Hendrycks任務。

BibTeX

若要引用GPT - NeoX - 20B論文，請使用以下BibTeX格式：

@misc{https://doi.org/10.48550/arxiv.2204.06745,
  doi = {10.48550/ARXIV.2204.06745},
  
  url = {https://arxiv.org/abs/2204.06745},
  
  author = {Black, Sid and Biderman, Stella and Hallahan, Eric and Anthony, Quentin and Gao, Leo and Golding, Laurence and He, Horace and Leahy, Connor and McDonell, Kyle and Phang, Jason and Pieler, Michael and Prashanth, USVSN Sai and Purohit, Shivanshu and Reynolds, Laria and Tow, Jonathan and Wang, Ben and Weinbach, Samuel},
  
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {GPT-NeoX-20B: An Open-Source Autoregressive Language Model},
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}

開放大語言模型排行榜評估結果

詳細結果可在此處查看。

指標	值
平均值	36.02
ARC（25樣本）	45.73
HellaSwag（10樣本）	73.45
MMLU（5樣本）	25.0
TruthfulQA（0樣本）	31.61
Winogrande（5樣本）	68.9
GSM8K（5樣本）	2.43
DROP（3樣本）	5.04