🚀 OPT : Open Pre-trained Transformer Language Models
OPTは、自然言語処理の分野において、事前学習されたTransformerベースの言語モデルです。Meta AIによって開発され、大規模なテキストデータで学習されており、テキスト生成や下流タスクの評価に利用できます。
🚀 クイックスタート
OPTは、2022年5月3日にMeta AIによってmetaseqのリポジトリで最初に公開されました。詳細については、Open Pre-trained Transformer Language Modelsを参照してください。
✨ 主な機能
- 大規模な事前学習:大規模なテキストコーパスで事前学習され、高い性能を発揮します。
- 多様な下流タスク:テキスト生成や下流タスクの評価に利用できます。
- モデルの公開:研究目的での利用を目的として、モデルが公開されています。
📦 インストール
このセクションでは、OPTモデルを使用するための基本的なインストール手順は記載されていません。必要なライブラリや依存関係のインストールについては、Hugging FaceのTransformersライブラリのドキュメントを参照してください。
💻 使用例
基本的な使用法
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> import torch
>>> model = AutoModelForCausalLM.from_pretrained("facebook/opt-6.7b", torch_dtype=torch.float16).cuda()
>>>
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/opt-6.7b", use_fast=False)
>>> prompt = "Hello, I'm am conscious and"
>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()
>>> generated_ids = model.generate(input_ids)
>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
["Hello, I'm am conscious and aware of my surroundings. I'm not sure what you mean"]
高度な使用法
>>> from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
>>> import torch
>>> model = AutoModelForCausalLM.from_pretrained("facebook/opt-6.7b", torch_dtype=torch.float16).cuda()
>>>
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/opt-6.7b", use_fast=False)
>>> prompt = "Hello, I'm am conscious and"
>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()
>>> set_seed(32)
>>> generated_ids = model.generate(input_ids, do_sample=True)
>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
["Hello, I'm am conscious and aware of my surroundings. I'm not sure if I'm"]
📚 ドキュメント
意図された用途と制限
事前学習のみのモデルは、下流タスクの評価やテキスト生成のためのプロンプトに使用できます。また、CLMの例を使用して、下流タスクでモデルを微調整することもできます。他のOPTチェックポイントについては、モデルハブを参照してください。
制限とバイアス
Meta AIのモデルカードにも記載されているように、このモデルの学習データには、インターネットからの多くの未フィルタリングのコンテンツが含まれており、中立性に欠けるため、モデルには強いバイアスがあります。
学習データ
Meta AIチームは、できるだけ大きなコーパスでこのモデルを学習させることを目指しました。学習データは、以下の5つのフィルタリングされたテキスト文書のデータセットの和集合で構成されています。
収集プロセス
データセットはインターネットから収集され、古典的なデータ処理アルゴリズムと再フォーマットの手法を経ています。
🔧 技術詳細
前処理
テキストは、GPT2のバイトレベルのByte Pair Encoding (BPE) を使用してトークン化され、語彙サイズは50272です。入力は、連続する2048トークンのシーケンスです。
学習手順
175Bモデルは、992台の80GB A100 GPUで学習されました。学習期間は、約33日間の連続学習でした。
BibTeXエントリと引用情報
@misc{zhang2022opt,
title={OPT: Open Pre-trained Transformer Language Models},
author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
year={2022},
eprint={2205.01068},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、other
ライセンスの下で提供されています。商用利用は許可されていません。