OPT-6.7Bオープンソース言語モデル - 大規模言語モデルの研究と探索を無料で支援

ホーム

Opt 6.7b

facebookによって開発

OPTはMeta AIが開発したオープンプリトレーニングTransformer言語モデルで、6.7Bのパラメータを含み、大規模言語モデル研究を促進することを目的としています。

大規模言語モデル英語オープンソースライセンス:その他 #大規模言語生成 #ゼロショット学習 #1750億パラメータ

ダウンロード数 72.30k

リリース時間 : 5/11/2022

モデル概要

OPTはデコーダー専用のプリトレーニング済みTransformerモデルで、主にテキスト生成や少数ショット学習タスクに使用されます。

モデル特徴

オープンリサーチ

モデルパラメータとトレーニング詳細を公開し、透明性のある研究を促進

大規模プリトレーニング

1800億トークンの多様なデータセットでトレーニング

GPT-3レベルの性能

GPT-3クラスのモデルと同等の性能を目指して設計

モデル能力

テキスト生成

ゼロショット学習

少数ショット学習

下流タスクのファインチューニング

使用事例

テキスト生成

クリエイティブライティング

ストーリーや詩などの創造的なコンテンツを生成

一貫性のあるテキスト段落を生成可能

対話システム

チャットボットの基盤構築

基本的な対話インタラクションが可能

研究

言語モデル研究

大規模言語モデルの動作と特性を研究

🚀 OPT : Open Pre-trained Transformer Language Models

OPTは、自然言語処理の分野において、事前学習されたTransformerベースの言語モデルです。Meta AIによって開発され、大規模なテキストデータで学習されており、テキスト生成や下流タスクの評価に利用できます。

🚀 クイックスタート

OPTは、2022年5月3日にMeta AIによってmetaseqのリポジトリで最初に公開されました。詳細については、Open Pre-trained Transformer Language Modelsを参照してください。

✨ 主な機能

大規模な事前学習：大規模なテキストコーパスで事前学習され、高い性能を発揮します。
多様な下流タスク：テキスト生成や下流タスクの評価に利用できます。
モデルの公開：研究目的での利用を目的として、モデルが公開されています。

📦 インストール

このセクションでは、OPTモデルを使用するための基本的なインストール手順は記載されていません。必要なライブラリや依存関係のインストールについては、Hugging FaceのTransformersライブラリのドキュメントを参照してください。

💻 使用例

基本的な使用法

>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> import torch

>>> model = AutoModelForCausalLM.from_pretrained("facebook/opt-6.7b", torch_dtype=torch.float16).cuda()

>>> # the fast tokenizer currently does not work correctly
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/opt-6.7b", use_fast=False)

>>> prompt = "Hello, I'm am conscious and"

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()

>>> generated_ids = model.generate(input_ids)

>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
["Hello, I'm am conscious and aware of my surroundings. I'm not sure what you mean"]

高度な使用法

>>> from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
>>> import torch

>>> model = AutoModelForCausalLM.from_pretrained("facebook/opt-6.7b", torch_dtype=torch.float16).cuda()

>>> # the fast tokenizer currently does not work correctly
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/opt-6.7b", use_fast=False)

>>> prompt = "Hello, I'm am conscious and"

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()

>>> set_seed(32)
>>> generated_ids = model.generate(input_ids, do_sample=True)

>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
["Hello, I'm am conscious and aware of my surroundings. I'm not sure if I'm"]

📚 ドキュメント

意図された用途と制限

事前学習のみのモデルは、下流タスクの評価やテキスト生成のためのプロンプトに使用できます。また、CLMの例を使用して、下流タスクでモデルを微調整することもできます。他のOPTチェックポイントについては、モデルハブを参照してください。

制限とバイアス

Meta AIのモデルカードにも記載されているように、このモデルの学習データには、インターネットからの多くの未フィルタリングのコンテンツが含まれており、中立性に欠けるため、モデルには強いバイアスがあります。

学習データ

Meta AIチームは、できるだけ大きなコーパスでこのモデルを学習させることを目指しました。学習データは、以下の5つのフィルタリングされたテキスト文書のデータセットの和集合で構成されています。

収集プロセス

データセットはインターネットから収集され、古典的なデータ処理アルゴリズムと再フォーマットの手法を経ています。

🔧 技術詳細

前処理

テキストは、GPT2のバイトレベルのByte Pair Encoding (BPE) を使用してトークン化され、語彙サイズは50272です。入力は、連続する2048トークンのシーケンスです。

学習手順

175Bモデルは、992台の80GB A100 GPUで学習されました。学習期間は、約33日間の連続学習でした。

BibTeXエントリと引用情報

@misc{zhang2022opt,
      title={OPT: Open Pre-trained Transformer Language Models}, 
      author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
      year={2022},
      eprint={2205.01068},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}