opt-125mオープンソース言語モデル - GPT-3の性能に対抗し、大規模言語研究を支援

Opt 125m

facebookによって開発

OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。

大規模言語モデル英語オープンソースライセンス:その他 #大規模言語モデル #ゼロショット学習 #テキスト生成

ダウンロード数 6.3M

リリース時間 : 5/11/2022

モデル概要

英語テキストを基に事前学習された因果的言語モデルで、テキスト生成や少数ショット学習タスクをサポートし、デコーダ専用のトランスフォーマーアーキテクチャを採用しています。

モデル特徴

オープンリサーチ指向

再現可能な大規模言語モデル研究をサポートするために特別に設計され、研究の障壁を低減します

GPT-3対抗性能

GPT-3と同じ評価フレームワークとプロンプト設定を採用し、同等の性能を発揮します

効率的なトレーニング実践

データ収集とトレーニングプロセスの最新のベストプラクティスを適用し、トレーニング効率を最適化します

モデル能力

テキスト生成

ゼロショット学習

少数ショット学習

下流タスクのファインチューニング

使用事例

テキスト生成

オープンエンド質問応答

ユーザーの質問に基づいて一貫性のある回答を生成します

例：入力'夕食は何にしよう？'に対して、関連する提案を含むテキストを出力

研究応用

モデルのバイアス研究

大規模言語モデルにおけるバイアスや毒性の問題を分析します

🚀 OPT : Open Pre-trained Transformer Language Models

OPTは、2022年5月3日にMeta AIによってmetaseqのリポジトリで初公開され、Open Pre-trained Transformer Language Modelsで最初に紹介されました。

免責事項：OPTを公開したチームは公式のモデルカードを作成しており、それは論文の付録Dに掲載されています。このモデルカードの内容は、Hugging Faceチームによって作成されています。

🚀 クイックスタート

概要

公式論文の最初の2段落を引用すると、

大規模なテキストコレクションで学習された大規模言語モデルは、テキスト生成やゼロショットおよびフューショット学習を行う驚くべき能力を示しています。場合によっては、一般の人が有料APIを通じてこれらのモデルと対話することができますが、現在、モデルへの完全なアクセスは限られた数の資源の豊富な研究室に限定されています。この制限されたアクセスは、研究者がこれらの大規模言語モデルがどのように、そしてなぜ機能するのかを研究する能力を制限し、ロバスト性、バイアス、毒性などの分野で既知の課題を改善する進歩を妨げています。

我々は、1億2500万から1750億のパラメータを持つデコーダーのみの事前学習トランスフォーマーのセットであるOpen Pretrained Transformers (OPT) を提案します。我々は、これらのOPTモデルをGPT - 3クラスのモデルの性能とサイズに概ね一致するように学習させるとともに、データ収集と効率的な学習における最新のベストプラクティスを適用しています。このOPTモデルのセットを開発する目的は、大規模で再現可能で責任ある研究を可能にし、これらの大規模言語モデルの影響を研究する際に、より多くの声を持ち寄ることです。リスク、危害、バイアス、毒性などの定義は、モデルが研究可能な状態である場合にのみ可能な、研究コミュニティ全体によって明確にされるべきです。

モデルの説明

OPTは主に英語のテキストで事前学習されましたが、CommonCrawlを通じて少量の非英語データも学習コーパスに含まれています。このモデルは、因果言語モデリング (CLM) の目的で事前学習されました。OPTは、GPT - 3 のようなデコーダーのみのモデルの家族に属しています。そのため、自己教師付きの因果言語モデリングの目的で事前学習されました。評価において、OPTはGPT - 3 のプロンプトと全体的な実験設定を使用しています。詳細については、公式論文を読んでください。

想定される用途と制限

事前学習のみのモデルは、下流タスクの評価のためのプロンプトやテキスト生成に使用できます。また、モデルは[CLMの例](https://github.com/huggingface/transformers/tree/main/examples/pytorch/language - modeling)を使用して下流タスクで微調整することができます。他のすべてのOPTチェックポイントについては、モデルハブを参照してください。

使い方

このモデルは、テキスト生成のパイプラインで直接使用できます。

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="facebook/opt-125m")
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nA nice dinner with a friend.\nI'm not sure'}]

デフォルトでは、生成は決定論的です。トップkサンプリングを使用するには、do_sample を True に設定してください。

>>> from transformers import pipeline, set_seed

>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-125m", do_sample=True)
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nCoffee, sausage and cream cheese at Chili's.'}]

制限とバイアス

Meta AIのモデルカードで述べられているように、このモデルの学習データには、中立性に欠ける大量の未フィルタリングのインターネット上のコンテンツが含まれているため、モデルには強いバイアスがあります。

学習データの多様性（またはその欠如）がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、OPT - 175Bにはバイアスと安全性の面で制限があります。OPT - 175Bはまた、生成の多様性と幻覚の面で品質問題を抱えることがあります。一般的に、OPT - 175Bは、現代の大規模言語モデルを悩ます数多くの問題から免れることはできません。

このバイアスは、このモデルのすべての微調整バージョンにも影響を与えます。

学習データ

Meta AIチームは、このモデルをできるだけ大きなコーパスで学習させることを目的としていました。これは、以下の5つのフィルタリングされたテキスト文書のデータセットの和集合で構成されています。

1万冊以上の未公開の本からなるBookCorpus
Winogradスキーマのストーリーのようなスタイルに合うようにフィルタリングされたCommonCrawlデータのサブセットを含むCC - Stories
Pile - CC、OpenWebText2、USPTO、Project Gutenberg、OpenSubtitles、Wikipedia、DM Mathematics、HackerNews が含まれるThe Pile
Baumgartnerら (2020) で開発され、Rollerら (2021) で処理されたPushshift.io Redditデータセット
RoBERTa (Liuら、2019b) で使用されたCommonCrawl Newsデータセットの英語部分の更新バージョンを含むCCNewsV2

最終的な学習データには、800GBのデータに相当する1800億のトークンが含まれています。検証用の分割は、事前学習コーパス内の各データセットのサイズに比例してサンプリングされた200MBの事前学習データで構成されています。

データセットの一部は公共のCommon Crawlデータのサブセットと公共のRedditデータのサブセットであるため、データセットには不快な内容が含まれる可能性があります。これらのデータには、直接見ると侮辱的、脅迫的、または不安を引き起こす可能性のある文章が含まれている場合があります。

収集プロセス

データセットはインターネットから収集され、Chapter One や This ebook by Project Gutenberg. のような繰り返し/非情報的なテキストを削除するなど、古典的なデータ処理アルゴリズムと再フォーマットの手法を経ています。

学習手順

前処理

テキストは、GPT2 のバイトレベルのバイトペアエンコーディング (BPE) （ユニコード文字用）を使用してトークン化され、語彙サイズは50272です。入力は2048個の連続したトークンのシーケンスです。

1750億パラメータのモデルは、992台の80GB A100 GPUで学習されました。学習期間は約33日間の連続学習でした。

BibTeXのエントリと引用情報

@misc{zhang2022opt,
      title={OPT: Open Pre-trained Transformer Language Models}, 
      author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
      year={2022},
      eprint={2205.01068},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}