opt-125m開源語言模型 - 對標GPT-3性能，助力大規模語言研究

首頁

Opt 125m

由facebook開發

OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件，參數量從1.25億到1750億，旨在對標GPT-3系列性能，同時促進大規模語言模型的開放研究。

大型語言模型英語開源協議:其他 #大語言模型 #零樣本學習 #文本生成

下載量 6.3M

發布時間 : 5/11/2022

模型概述

基於英文文本預訓練的因果語言模型，支持文本生成和少樣本學習任務，採用解碼器專用Transformer架構。

模型特點

開放研究導向

專門設計用於支持可復現的大規模語言模型研究，降低研究門檻

GPT-3對標性能

採用與GPT-3相同的評估框架和提示詞設置，性能表現可比

高效訓練實踐

應用數據收集和訓練過程的最新最佳實踐，優化訓練效率

模型能力

文本生成

零樣本學習

少樣本學習

下游任務微調

使用案例

文本生成

開放式問答

根據用戶提問生成連貫回答

示例：輸入'晚餐吃什麼？'，輸出包含相關建議的文本

研究應用

模型偏見研究

分析大語言模型中的偏見和毒性問題

🚀 OPT : 開放預訓練Transformer語言模型

OPT是一種開放預訓練的Transformer語言模型，旨在為研究人員提供可復現和負責任的大規模研究工具，助力解決大語言模型在魯棒性、偏差和毒性等方面的挑戰。

🚀 快速開始

OPT最早於2022年5月3日由Meta AI在metaseq的倉庫中發佈，相關研究首次發表於《Open Pre-trained Transformer Language Models》。

免責聲明：發佈OPT的團隊撰寫了官方模型卡片，可在論文的附錄D中查看。本模型卡片的內容由Hugging Face團隊撰寫。

✨ 主要特性

引用官方論文的前兩段內容：

基於大規模文本集合訓練的大語言模型在生成文本以及進行零樣本和少樣本學習方面展現出了驚人的新興能力。儘管在某些情況下，公眾可以通過付費API與這些模型進行交互，但目前只有少數資源豐富的實驗室能夠完全訪問這些模型。這種受限的訪問方式限制了研究人員研究這些大語言模型的工作原理和原因，阻礙了在改善已知挑戰（如魯棒性、偏差和毒性）方面的進展。

我們推出了開放預訓練Transformer（OPT），這是一套僅含解碼器的預訓練Transformer模型，參數範圍從1.25億到1750億。我們的目標是與感興趣的研究人員全面且負責地分享這些模型。我們訓練OPT模型，使其在性能和規模上大致匹配GPT - 3系列模型，同時在數據收集和高效訓練方面採用最新的最佳實踐。我們開發這套OPT模型的目的是實現可復現和負責任的大規模研究，並讓更多人參與到研究這些大語言模型的影響中來。風險、危害、偏差和毒性等定義應該由整個研究界共同明確，而這隻有在模型可供研究時才有可能實現。

📚 詳細文檔

模型描述

OPT主要使用英文文本進行預訓練，但通過CommonCrawl，訓練語料庫中仍包含少量非英文數據。該模型使用因果語言建模（CLM）目標進行預訓練。OPT與GPT - 3同屬僅含解碼器的模型家族，因此使用自監督因果語言建模目標進行預訓練。

在評估方面，OPT遵循GPT - 3的方法，使用其提示和整體實驗設置。更多詳細信息，請閱讀官方論文。

預期用途和侷限性

僅預訓練的模型可用於下游任務評估的提示以及文本生成。此外，可使用[CLM示例](https://github.com/huggingface/transformers/tree/main/examples/pytorch/language - modeling)對模型進行下游任務微調。其他OPT檢查點可在模型中心查看。

訓練數據

Meta AI團隊希望在儘可能大的語料庫上訓練該模型，語料庫由以下5個經過篩選的文本文檔數據集合並而成：

BookCorpus：包含超過10000本未出版的書籍。
CC - Stories：包含CommonCrawl數據的一個子集，經過篩選以匹配Winograd模式的故事風格。
The Pile：包含Pile - CC、OpenWebText2、USPTO、Project Gutenberg、OpenSubtitles、Wikipedia、DM Mathematics和HackerNews。
Pushshift.io Reddit數據集：由Baumgartner等人（2020）開發，並由Roller等人（2021）進行處理。
CCNewsV2：包含RoBERTa（Liu等人，2019b）中使用的CommonCrawl新聞數據集英文部分的更新版本。

最終的訓練數據包含1800億個標記，對應800GB的數據。驗證集由200MB的預訓練數據組成，按每個數據集在預訓練語料庫中的大小比例進行採樣。

由於部分數據集是公共Common Crawl數據的子集以及公共Reddit數據的子集，因此數據集可能包含冒犯性內容，其中的句子可能具有侮辱性、威脅性或會引起焦慮。

收集過程

數據集從互聯網收集而來，經過經典的數據處理算法和重新格式化操作，包括去除重複/無信息的文本，如第一章或古登堡計劃電子書。

訓練過程

預處理

文本使用GPT2字節級的字節對編碼（BPE）（用於Unicode字符）進行分詞，詞彙表大小為50272。輸入是2048個連續標記的序列。

1750億參數的模型在992個80GB A100 GPU上進行訓練，訓練時長約為33天的連續訓練。

💻 使用示例

基礎用法

你可以直接使用文本生成管道來使用此模型。

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="facebook/opt-125m")
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nA nice dinner with a friend.\nI'm not sure'}]

高級用法

默認情況下，生成是確定性的。若要使用top - k採樣，請將do_sample設置為True。

>>> from transformers import pipeline, set_seed

>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-125m", do_sample=True)
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nCoffee, sausage and cream cheese at Chili's.'}]

侷限性和偏差

正如Meta AI的模型卡片中所述，由於該模型的訓練數據包含大量來自互聯網的未過濾內容，這些內容遠非中立，因此模型存在嚴重偏差：

與其他大語言模型一樣，訓練數據的多樣性（或缺乏多樣性）會對模型質量產生下游影響，OPT - 175B在偏差和安全性方面存在侷限性。OPT - 175B在生成多樣性和幻覺方面也可能存在質量問題。總體而言，OPT - 175B無法避免困擾現代大語言模型的諸多問題。

這種偏差也會影響該模型的所有微調版本。

🔧 技術細節

BibTeX引用和引用信息

@misc{zhang2022opt,
      title={OPT: Open Pre-trained Transformer Language Models}, 
      author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
      year={2022},
      eprint={2205.01068},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}