模型概述
模型特點
模型能力
使用案例
🚀 OPT:開放預訓練Transformer語言模型
OPT是一種開放預訓練的Transformer語言模型,旨在為研究人員提供可復現和負責任的大規模研究工具,助力解決大語言模型在魯棒性、偏差和毒性等方面的挑戰。
🚀 快速開始
你可以直接使用文本生成管道來使用這個模型。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="facebook/opt-350m")
>>> generator("What are we having for dinner?")
[{'generated_text': "What are we having for dinner?\nI'm having a steak and a salad.\nI'm""}]
默認情況下,生成是確定性的。若要使用top - k採樣,請將do_sample
設置為True
。
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-350m", do_sample=True)
>>> generator("What are we having for dinner?")
[{'generated_text': "What are we having for dinner?\n\nWith spring fast approaching, it’s only appropriate"}]
✨ 主要特性
- 開放共享:Meta AI團隊旨在將OPT模型完全且負責任地分享給有興趣的研究人員,促進大規模可復現和負責任的研究。
- 性能匹配:訓練的OPT模型在性能和規模上大致匹配GPT - 3類模型,同時在數據收集和高效訓練方面採用了最新的最佳實踐。
- 多參數規模:提供從125M到175B參數的僅解碼器預訓練Transformer模型套件。
📚 詳細文檔
簡介
引用官方論文的前兩段內容:
基於大規模文本集合訓練的大語言模型在生成文本以及進行零樣本和少樣本學習方面展現出了驚人的新興能力。雖然在某些情況下,公眾可以通過付費API與這些模型進行交互,但目前只有少數資源豐富的實驗室能夠完全訪問這些模型。這種受限的訪問方式限制了研究人員研究這些大語言模型的工作原理和原因的能力,阻礙了在提高魯棒性、偏差和毒性等領域已知挑戰方面的進展。
我們推出了開放預訓練Transformer(OPT),這是一套參數從1.25億到1750億不等的僅解碼器預訓練Transformer模型,我們旨在將其完全且負責任地分享給有興趣的研究人員。我們訓練OPT模型,使其性能和規模大致與GPT - 3類模型相匹配,同時在數據收集和高效訓練方面採用最新的最佳實踐。我們開發這套OPT模型的目的是實現大規模的可復現和負責任的研究,並讓更多的聲音參與到研究這些大語言模型的影響中來。風險、危害、偏差和毒性等的定義應該由整個研究界共同闡明,而這隻有在模型可供研究時才有可能實現。
模型描述
OPT主要使用英文文本進行預訓練,但通過CommonCrawl,訓練語料庫中仍存在少量非英文數據。該模型使用因果語言建模(CLM)目標進行預訓練。OPT與GPT - 3同屬僅解碼器模型家族。因此,它使用自監督因果語言建模目標進行預訓練。
在評估方面,OPT遵循GPT - 3的方法,使用其提示和整體實驗設置。更多詳細信息,請閱讀官方論文。
預期用途和侷限性
僅預訓練的模型可用於下游任務的評估提示以及文本生成。此外,可以使用[CLM示例](https://github.com/huggingface/transformers/tree/main/examples/pytorch/language - modeling)對模型進行下游任務的微調。有關所有其他OPT檢查點,請查看模型中心。
侷限性和偏差
正如Meta AI的模型卡片中所提到的,由於該模型的訓練數據包含大量來自互聯網的未過濾內容,這些內容遠非中立,因此該模型存在嚴重偏差:
與其他大語言模型一樣,訓練數據的多樣性(或缺乏多樣性)會對模型質量產生下游影響,OPT - 175B在偏差和安全性方面存在侷限性。OPT - 175B在生成多樣性和幻覺方面也可能存在質量問題。一般來說,OPT - 175B無法避免困擾現代大語言模型的諸多問題。
以下是模型可能產生偏差預測的一個示例:
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-350m", do_sample=True, num_return_sequences=5)
>>> generator("The woman worked as a")
[{'generated_text': "The woman works as a substitute teacher for kids who have missed school. She's the teacher herself,"},
{'generated_text': 'The woman works as a security guard for another company and does an average of around $13/hour'},
{'generated_text': 'The woman works as a receptionist, she could at the least wait a week or two for her'},
{'generated_text': 'The woman works as a manager/intern/career development coach/advisor at a nursing home'},
{'generated_text': 'The woman works as a maid and has to clean the house but you can tell her to do it'}]
與之相比:
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-350m", do_sample=True, num_return_sequences=5)
>>> generator("The man worked as a")
[{'generated_text': 'The man works as a security guard for the National Football League franchise. He has been a part of'},
{'generated_text': 'The man works as a security guard for another company and does an excellent job.\nI remember when'},
{'generated_text': 'The man works as a "secret agent" but at the same time he\'s working to protect the'},
{'generated_text': 'The man works as a manager/operator/servant for a grocery store and does a lot of'},
{'generated_text': 'The man works as a bouncer near the scene of the accident - how he could do that is'}]
這種偏差也會影響該模型的所有微調版本。
訓練數據
Meta AI團隊希望在儘可能大的語料庫上訓練該模型。它由以下5個經過過濾的文本文檔數據集組成:
- BookCorpus,包含超過10000本未出版的書籍。
- CC - Stories,包含經過過濾以匹配Winograd模式故事風格的CommonCrawl數據子集。
- The Pile,其中包括Pile - CC、OpenWebText2、USPTO、Project Gutenberg、OpenSubtitles、Wikipedia、DM Mathematics和HackerNews。
- Pushshift.io Reddit數據集,由Baumgartner等人(2020)開發,並由Roller等人(2021)進行處理。
- CCNewsV2,包含用於RoBERTa(Liu等人,2019b)的CommonCrawl News數據集英文部分的更新版本。
最終的訓練數據包含1800億個標記,對應800GB的數據。驗證集由200MB的預訓練數據組成,按每個數據集在預訓練語料庫中的大小比例進行採樣。
該數據集可能包含冒犯性內容,因為部分數據集是公共Common Crawl數據的子集,以及公共Reddit數據的子集,這些數據可能包含直接查看時具有侮辱性、威脅性或可能引起焦慮的句子。
收集過程
該數據集從互聯網收集而來,並經過經典的數據處理算法和重新格式化操作,包括去除重複/無信息的文本,如Chapter One或This ebook by Project Gutenberg.
訓練過程
預處理
文本使用GPT2字節級的字節對編碼(BPE)(用於Unicode字符)進行標記化,詞彙表大小為50272。輸入是2048個連續標記的序列。
1750億參數的模型在992個80GB A100 GPU上進行訓練。訓練持續時間約為33天的連續訓練。
BibTeX引用和引用信息
@misc{zhang2022opt,
title={OPT: Open Pre-trained Transformer Language Models},
author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
year={2022},
eprint={2205.01068},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
該模型的許可證為other,不允許商業使用。



