🚀 GPT-Neo 2.7B
GPT-Neo 2.7B 是一個基於Transformer架構的模型,可用於文本生成任務,利用大規模數據集訓練得到,在多種語言推理和物理科學推理任務中表現出色。
🚀 快速開始
你可以直接使用文本生成管道來使用這個模型。以下示例每次運行時都會生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主要特性
- 架構設計:GPT-Neo 2.7B 是使用 EleutherAI 對 GPT - 3 架構的復現設計的Transformer模型。
- 訓練數據:在大規模精心策劃的數據集 The Pile 上進行訓練。
- 訓練目標:作為掩碼自迴歸語言模型進行訓練,使用交叉熵損失函數。
- 功能用途:學習英語語言的內部表示,可用於提取對下游任務有用的特徵,尤其擅長根據提示生成文本。
📦 安裝指南
文檔未提及安裝步驟,故跳過。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 詳細文檔
模型描述
GPT-Neo 2.7B 是使用 EleutherAI 對 GPT - 3 架構的復現設計的Transformer模型。GPT - Neo 指的是模型類別,而 2.7B 表示這個特定預訓練模型的參數數量。
訓練數據
GPT-Neo 2.7B 在 The Pile 上進行訓練,這是 EleutherAI 為訓練該模型而創建的大規模精心策劃的數據集。
訓練過程
該模型在 400,000 個步驟中對 4200 億個標記進行了訓練。它作為掩碼自迴歸語言模型進行訓練,使用交叉熵損失函數。
預期用途和侷限性
通過這種方式,模型學習英語語言的內部表示,然後可用於提取對下游任務有用的特徵。不過,該模型最擅長的是其預訓練的任務,即根據提示生成文本。
評估結果
所有評估均使用評估工具進行。GPT - 2 和 GPT - 3 的一些結果與各自論文中報告的值不一致。我們目前正在研究原因,並非常感謝對我們評估工具的反饋和進一步測試。如果你想貢獻你所做的評估,請在我們的Discord上聯繫我們。
語言推理
屬性 |
詳情 |
模型類型 |
GPT-Neo 2.7B |
訓練數據 |
The Pile |
模型及規模 |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada 準確率 |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理和科學推理
模型及規模 |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
侷限性和偏差
GPT - Neo 作為自迴歸語言模型進行訓練。這意味著其核心功能是獲取一串文本並預測下一個標記。雖然語言模型廣泛用於此任務之外的其他任務,但這項工作仍有很多未知因素。
GPT - Neo 在 The Pile 上進行訓練,該數據集已知包含褻瀆、淫穢和其他冒犯性語言。根據你的用例,GPT - Neo 可能會產生社會不可接受的文本。有關 The Pile 中偏差的更詳細分析,請參閱 The Pile 論文的第 5 節和第 6 節。
與所有語言模型一樣,很難提前預測 GPT - Neo 對特定提示的響應,並且可能會在沒有警告的情況下出現冒犯性內容。我們建議在發佈輸出之前由人工進行篩選或過濾,以審查不良內容並提高結果質量。
BibTeX 條目和引用信息
要引用此模型,請使用:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
🔧 技術細節
文檔未提供足夠技術細節,故跳過。
📄 許可證
本項目採用 MIT 許可證。