🚀 OPT : Open Pre-trained Transformer Language Models
OPTは、2022年5月3日にMeta AIによってmetaseqのリポジトリで初公開され、Open Pre-trained Transformer Language Modelsで最初に紹介されました。
免責事項:OPTを公開したチームは公式のモデルカードを作成しており、それは論文の付録Dに掲載されています。このモデルカードの内容は、Hugging Faceチームによって作成されています。
🚀 クイックスタート
概要
公式論文の最初の2段落を引用すると、
大規模なテキストコレクションで学習された大規模言語モデルは、テキスト生成やゼロショットおよびフューショット学習を行う驚くべき能力を示しています。場合によっては、一般の人が有料APIを通じてこれらのモデルと対話することができますが、現在、モデルへの完全なアクセスは限られた数の資源の豊富な研究室に限定されています。この制限されたアクセスは、研究者がこれらの大規模言語モデルがどのように、そしてなぜ機能するのかを研究する能力を制限し、ロバスト性、バイアス、毒性などの分野で既知の課題を改善する進歩を妨げています。
我々は、1億2500万から1750億のパラメータを持つデコーダーのみの事前学習トランスフォーマーのセットであるOpen Pretrained Transformers (OPT) を提案します。我々は、これらのOPTモデルをGPT - 3クラスのモデルの性能とサイズに概ね一致するように学習させるとともに、データ収集と効率的な学習における最新のベストプラクティスを適用しています。このOPTモデルのセットを開発する目的は、大規模で再現可能で責任ある研究を可能にし、これらの大規模言語モデルの影響を研究する際に、より多くの声を持ち寄ることです。リスク、危害、バイアス、毒性などの定義は、モデルが研究可能な状態である場合にのみ可能な、研究コミュニティ全体によって明確にされるべきです。
モデルの説明
OPTは主に英語のテキストで事前学習されましたが、CommonCrawlを通じて少量の非英語データも学習コーパスに含まれています。このモデルは、因果言語モデリング (CLM) の目的で事前学習されました。OPTは、GPT - 3 のようなデコーダーのみのモデルの家族に属しています。そのため、自己教師付きの因果言語モデリングの目的で事前学習されました。評価において、OPTはGPT - 3 のプロンプトと全体的な実験設定を使用しています。詳細については、公式論文 を読んでください。
想定される用途と制限
事前学習のみのモデルは、下流タスクの評価のためのプロンプトやテキスト生成に使用できます。また、モデルは[CLMの例](https://github.com/huggingface/transformers/tree/main/examples/pytorch/language - modeling)を使用して下流タスクで微調整することができます。他のすべてのOPTチェックポイントについては、モデルハブを参照してください。
使い方
このモデルは、テキスト生成のパイプラインで直接使用できます。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="facebook/opt-125m")
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nA nice dinner with a friend.\nI'm not sure'}]
デフォルトでは、生成は決定論的です。トップkサンプリングを使用するには、do_sample
を True
に設定してください。
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-125m", do_sample=True)
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nCoffee, sausage and cream cheese at Chili's.'}]
制限とバイアス
Meta AIのモデルカードで述べられているように、このモデルの学習データには、中立性に欠ける大量の未フィルタリングのインターネット上のコンテンツが含まれているため、モデルには強いバイアスがあります。
学習データの多様性(またはその欠如)がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT - 175Bにはバイアスと安全性の面で制限があります。OPT - 175Bはまた、生成の多様性と幻覚の面で品質問題を抱えることがあります。一般的に、OPT - 175Bは、現代の大規模言語モデルを悩ます数多くの問題から免れることはできません。
このバイアスは、このモデルのすべての微調整バージョンにも影響を与えます。
学習データ
Meta AIチームは、このモデルをできるだけ大きなコーパスで学習させることを目的としていました。これは、以下の5つのフィルタリングされたテキスト文書のデータセットの和集合で構成されています。
- 1万冊以上の未公開の本からなるBookCorpus
- Winogradスキーマのストーリーのようなスタイルに合うようにフィルタリングされたCommonCrawlデータのサブセットを含むCC - Stories
- Pile - CC、OpenWebText2、USPTO、Project Gutenberg、OpenSubtitles、Wikipedia、DM Mathematics、HackerNews が含まれるThe Pile
- Baumgartnerら (2020) で開発され、Rollerら (2021) で処理されたPushshift.io Redditデータセット
- RoBERTa (Liuら、2019b) で使用されたCommonCrawl Newsデータセットの英語部分の更新バージョンを含むCCNewsV2
最終的な学習データには、800GBのデータに相当する1800億のトークンが含まれています。検証用の分割は、事前学習コーパス内の各データセットのサイズに比例してサンプリングされた200MBの事前学習データで構成されています。
データセットの一部は公共のCommon Crawlデータのサブセットと公共のRedditデータのサブセットであるため、データセットには不快な内容が含まれる可能性があります。これらのデータには、直接見ると侮辱的、脅迫的、または不安を引き起こす可能性のある文章が含まれている場合があります。
収集プロセス
データセットはインターネットから収集され、Chapter One や This ebook by Project Gutenberg. のような繰り返し/非情報的なテキストを削除するなど、古典的なデータ処理アルゴリズムと再フォーマットの手法を経ています。
学習手順
前処理
テキストは、GPT2 のバイトレベルのバイトペアエンコーディング (BPE) (ユニコード文字用)を使用してトークン化され、語彙サイズは50272です。入力は2048個の連続したトークンのシーケンスです。
1750億パラメータのモデルは、992台の80GB A100 GPUで学習されました。学習期間は約33日間の連続学習でした。
BibTeXのエントリと引用情報
@misc{zhang2022opt,
title={OPT: Open Pre-trained Transformer Language Models},
author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
year={2022},
eprint={2205.01068},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルのライセンスは other
です。商用利用は false
です。