🚀 GPT-Neo 125M
GPT-Neo 125M 是一個基於Transformer架構的模型,使用EleutherAI復刻的GPT - 3架構設計。它能學習英語的內在表示,可用於提取對下游任務有用的特徵,尤其擅長根據提示生成文本。
✨ 主要特性
- 基於Transformer架構:採用EleutherAI復刻的GPT - 3架構設計。
- 大規模數據訓練:在大規模的Pile數據集上進行訓練。
- 文本生成能力:擅長根據提示生成文本。
📦 安裝指南
文檔未提及安裝步驟,暫無法提供。
💻 使用示例
基礎用法
你可以直接使用文本生成管道來使用這個模型。每次運行此示例時都會生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-125M')
>>> generator("EleutherAI has", do_sample=True, min_length=20)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 詳細文檔
模型描述
GPT-Neo 125M是使用EleutherAI復刻的GPT - 3架構設計的Transformer模型。GPT - Neo指的是模型類別,而125M表示這個特定預訓練模型的參數數量。
訓練數據
GPT-Neo 125M在Pile數據集上進行訓練,Pile是EleutherAI為訓練該模型而創建的大規模精選數據集。
訓練過程
該模型在Pile數據集上進行了572,300步的訓練,處理了3000億個標記。它作為掩碼自迴歸語言模型進行訓練,使用交叉熵損失。
預期用途和侷限性
通過這種方式,模型學習英語的內在表示,可用於提取對下游任務有用的特徵。不過,該模型最擅長的還是它預訓練的任務,即根據提示生成文本。
侷限性和偏差
GPT - Neo作為自迴歸語言模型進行訓練,這意味著其核心功能是接收一段文本並預測下一個標記。雖然語言模型廣泛用於其他任務,但這項工作仍有很多未知因素。
GPT - Neo在Pile數據集上進行訓練,該數據集包含褻瀆、低俗和其他冒犯性語言。根據你的用例,GPT - Neo可能會產生社會不可接受的文本。有關Pile數據集中偏差的更詳細分析,請參閱Pile論文的第5和第6節。
與所有語言模型一樣,很難預先預測GPT - Neo對特定提示的響應,並且可能會在毫無預警的情況下出現冒犯性內容。我們建議在發佈輸出之前由人工進行審核或過濾,以審查不良內容並提高結果質量。
評估結果
詳細結果可查看此處
指標 |
數值 |
平均值 |
25.79 |
ARC (25 - shot) |
22.95 |
HellaSwag (10 - shot) |
30.26 |
MMLU (5 - shot) |
25.97 |
TruthfulQA (0 - shot) |
45.58 |
Winogrande (5 - shot) |
51.78 |
GSM8K (5 - shot) |
0.3 |
DROP (3 - shot) |
3.69 |
BibTeX引用和引用信息
若要引用此模型,請使用以下內容:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
🔧 技術細節
- 模型類型:基於Transformer架構的自迴歸語言模型。
- 訓練數據:Pile數據集,這是一個由EleutherAI創建的大規模精選數據集。
- 訓練步驟:在Pile數據集上進行了572,300步的訓練,處理了3000億個標記。
- 損失函數:使用交叉熵損失。
📄 許可證
本模型採用MIT許可證。