🚀 GPT-NeoX-20B
GPT-NeoX-20B是一個擁有200億參數的自迴歸語言模型,它基於GPT-NeoX庫在the Pile數據集上訓練而成。該模型的架構有意模仿GPT - 3,幾乎與GPT - J - 6B相同。其訓練數據集包含大量英文文本,體現了該模型的通用性質。有關模型架構(包括與GPT - 3的差異)、訓練過程和額外評估的詳細信息,請參閱相關論文。
✨ 主要特性
- 大規模參數:擁有200億參數,能夠學習到豐富的語言知識和模式。
- 架構相似:架構與GPT - 3相似,且幾乎與GPT - J - 6B相同,便於進行對比和研究。
- 通用數據集訓練:在包含多種來源英文文本的the Pile數據集上訓練,具有較強的通用性。
📚 詳細文檔
模型詳情
超參數 |
值 |
nparameters |
20554567680 |
nlayers |
44 |
dmodel |
6144 |
nheads |
64 |
dhead |
96 |
nvocab |
50257 |
序列長度 |
2048 |
學習率 |
0.97 x 10-5 |
位置編碼 |
旋轉位置嵌入(RoPE) |
使用場景與限制
預期用途
GPT - NeoX - 20B主要用於研究目的。它學習英語的內部表示,可用於提取對下游任務有用的特徵。
除科學用途外,只要符合Apache 2.0許可證,你還可以對GPT - NeoX - 20B進行進一步微調並部署。該模型可與Transformers庫配合使用。如果你決定使用預訓練的GPT - NeoX - 20B作為微調模型的基礎,請注意需要自行進行風險和偏差評估。
非預期用途
GPT - NeoX - 20B不適合直接部署。它不是一個產品,在沒有監督的情況下不能用於面向人類的交互。
GPT - NeoX - 20B未針對語言模型常用的下游任務進行微調,如撰寫特定體裁的散文或商業聊天機器人。這意味著GPT - NeoX - 20B可能不會像ChatGPT等產品那樣對給定提示做出響應。這是因為與GPT - NeoX - 20B不同,ChatGPT使用瞭如基於人類反饋的強化學習(RLHF)等方法進行微調,以更好地“理解”人類指令和對話。
該模型僅支持英文,因此不能用於翻譯或生成其他語言的文本。
侷限性和偏差
GPT - NeoX - 20B的核心功能是接收一段文本並預測下一個標記。請記住,統計上最可能的下一個標記不一定能產生最“準確”的文本。切勿依賴GPT - NeoX - 20B生成事實準確的輸出。
該模型在the Pile數據集上訓練,該數據集已知包含褻瀆性、淫穢或其他冒犯性的文本。有關性別、宗教和種族方面的記錄偏差的討論,請參閱the Pile論文的第6節。即使提示本身不包含任何明確的冒犯性內容,GPT - NeoX - 20B也可能產生社會不可接受或不良的文本。
我們建議在將該模型的輸出呈現給人類讀者之前進行篩選。請告知你的受眾你使用的是人工智能生成的文本。
使用方法
如果你只是想嘗試一些提示,可以查看這個遊樂場。
可以使用AutoModelForCausalLM
功能加載GPT - NeoX - 20B:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b")
訓練
訓練數據集
the Pile是一個825GiB的通用英文數據集,由EleutherAI專門為訓練大語言模型而創建。它包含來自22個不同來源的文本,大致分為五類:學術寫作(如arXiv)、互聯網(如CommonCrawl)、散文(如Project Gutenberg)、對話(如YouTube字幕)和其他(如GitHub、安然郵件)。有關所有數據源的細分、方法和倫理影響的討論,請參閱the Pile論文。有關the Pile及其組成數據集的更詳細文檔,請參閱數據說明書。可以從官方網站或社區鏡像下載the Pile。
在用於訓練GPT - NeoX - 20B之前,the Pile未進行去重處理。
訓練過程
GPT - NeoX - 20B以大約315萬個標記(每個序列2048個標記,共1538個序列)的批量大小進行訓練,總共訓練了150000步。使用張量並行和流水線並行將模型分佈到多個GPU上。有關訓練過程的更多詳細信息,請參閱相關論文的第3節。
評估
模型 |
OpenAI的LAMBADA |
SciQ |
PIQA |
TriviaQA |
ARC(挑戰) |
GPT - J - 6B |
0.683 ± 0.006 |
0.910 ± 0.009 |
0.752 ± 0.010 |
0.170 ± 0.004 |
0.340 ± 0.014 |
FairSeq 6.7B |
0.673 ± 0.007 |
0.895 ± 0.010 |
0.762 ± 0.010 |
0.221 ± 0.004 |
0.329 ± 0.014 |
GPT - 3 Curie |
0.693 ± 0.006 |
0.918 ± 0.009 |
0.767 ± 0.010 |
0.196 ± 0.004 |
0.334 ± 0.014 |
FairSeq 13B |
0.709 ± 0.006 |
0.910 ± 0.009 |
0.769 ± 0.010 |
0.270 ± 0.004 |
0.345 ± 0.014 |
GPT - NeoX - 20B |
0.720 ± 0.006 |
0.928 ± 0.008 |
0.779 ± 0.010 |
0.259 ± 0.004 |
0.380 ± 0.014 |
GPT - 3 DaVinci |
0.752 ± 0.006 |
0.949 ± 0.007 |
0.791 ± 0.009 |
0.409 ± 0.005 |
0.435 ± 0.014 |
在選定自然語言任務上的零樣本性能
這是評估結果的大幅簡化版本。GPT - NeoX - 20B論文的附錄D比較了更多模型大小,幷包含額外的評估,包括零樣本和五樣本自然語言任務、零樣本和五樣本基礎算術和數學任務以及零樣本Hendrycks任務。
BibTeX
若要引用GPT - NeoX - 20B論文,請使用以下BibTeX格式:
@misc{https://doi.org/10.48550/arxiv.2204.06745,
doi = {10.48550/ARXIV.2204.06745},
url = {https://arxiv.org/abs/2204.06745},
author = {Black, Sid and Biderman, Stella and Hallahan, Eric and Anthony, Quentin and Gao, Leo and Golding, Laurence and He, Horace and Leahy, Connor and McDonell, Kyle and Phang, Jason and Pieler, Michael and Prashanth, USVSN Sai and Purohit, Shivanshu and Reynolds, Laria and Tow, Jonathan and Wang, Ben and Weinbach, Samuel},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {GPT-NeoX-20B: An Open-Source Autoregressive Language Model},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
詳細結果可在此處查看。
指標 |
值 |
平均值 |
36.02 |
ARC(25樣本) |
45.73 |
HellaSwag(10樣本) |
73.45 |
MMLU(5樣本) |
25.0 |
TruthfulQA(0樣本) |
31.61 |
Winogrande(5樣本) |
68.9 |
GSM8K(5樣本) |
2.43 |
DROP(3樣本) |
5.04 |
📄 許可證
本項目採用Apache 2.0許可證。