モデル概要
モデル特徴
モデル能力
使用事例
🚀 roberta-large-mnli
roberta-large-mnliは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされたTransformerベースの言語モデルです。英語のテキストに対して、マスク言語モデリング(MLM)の目的で事前学習されています。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。このモデルは、zero-shot-classificationパイプラインでロードすることができます。
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
このパイプラインを使用して、指定したクラス名のいずれかにシーケンスを分類することができます。例えば:
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
✨ 主な機能
直接的な利用
このファインチューニングされたモデルは、ゼロショット分類タスクに使用できます。これには、ゼロショット文ペア分類(例はGitHubリポジトリを参照)やゼロショットシーケンス分類が含まれます。
誤用と範囲外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。また、このモデルは、人やイベントの事実的または真実の表現を学習するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。
📦 インストール
このセクションでは、モデルを使用するためのコード例が提供されていますが、インストール手順に関する具体的なコマンドは記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
高度な使用法
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
📚 ドキュメント
モデルの詳細
- 開発者: モデルの開発者については、GitHubリポジトリを参照してください。
- モデルの種類: Transformerベースの言語モデル
- 言語: 英語
- ライセンス: MIT
- 親モデル: このモデルは、RoBERTa largeモデルのファインチューニングバージョンです。関連情報については、RoBERTa largeモデルカードを参照してください。
- 詳細情報のリソース:
プロパティ | 詳細 |
---|---|
モデルの種類 | Transformerベースの言語モデル |
学習データ | このモデルは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされています。また、MNLIデータカードを参照してください。RoBERTaモデルは、5つのデータセットの統合で事前学習されています。これらのデータセットは合計で160GBのテキストを含んでいます。詳細はRoBERTa largeモデルカードを参照してください。 |
リスク、制限事項、バイアス
⚠️ 重要な注意
このセクションには、不快な、不快な内容が含まれており、歴史的および現在のステレオタイプを広める可能性があります。
多くの研究で、言語モデルのバイアスと公平性の問題が調査されています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。RoBERTa largeモデルカードには、「このモデルに使用される学習データには、ネットからの多くの未フィルタリングのコンテンツが含まれており、中立性に欠けています」と記載されています。
モデルによって生成される予測には、保護されたクラス、アイデンティティの特徴、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。例えば:
sequence_to_classify = "The CEO had a strong handshake."
candidate_labels = ['male', 'female']
hypothesis_template = "This text speaks about a {} profession."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
ユーザー(直接的および下流のユーザー)は、モデルのリスク、バイアス、および制限事項を認識する必要があります。
学習
学習データ
このモデルは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされています。詳細については、MNLIデータカードを参照してください。
RoBERTa largeモデルカードに記載されているように、RoBERTaモデルは、5つのデータセットの統合で事前学習されています。
- BookCorpus:11,038冊の未公開の本から構成されるデータセット
- English Wikipedia(リスト、テーブル、ヘッダーを除く)
- CC-News:2016年9月から2019年2月の間にクロールされた6300万件の英語のニュース記事を含むデータセット
- OpenWebText:GPT-2の学習に使用されたWebTextデータセットのオープンソースの再現版
- Stories:CommonCrawlデータのサブセットをWinogradスキーマのストーリー風スタイルに合わせてフィルタリングしたデータセット
これらのデータセットは合計で160GBのテキストを含んでいます。また、bookcorpusデータカードとwikipediaデータカードを参照してください。
学習手順
前処理
RoBERTa largeモデルカードに記載されているように、テキストはByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化され、語彙サイズは50,000です。モデルの入力は、ドキュメントをまたがる可能性のある512個の連続したトークンのピースを取ります。新しいドキュメントの始まりは<s>
で、終わりは</s>
でマークされます。
各文のマスキング手順の詳細は以下の通りです:
- 15%のトークンがマスクされます。
- 80%のケースで、マスクされたトークンは
<mask>
に置き換えられます。 - 10%のケースで、マスクされたトークンは、置き換えるトークンとは異なるランダムなトークンに置き換えられます。
- 残りの10%のケースでは、マスクされたトークンはそのまま残されます。
BERTとは異なり、マスキングは事前学習中に動的に行われます(例えば、各エポックで変化し、固定されていません)。
事前学習
RoBERTa largeモデルカードに記載されているように、このモデルは、1024台のV100 GPUで500Kステップ、バッチサイズ8K、シーケンス長512で学習されました。使用されたオプティマイザはAdamで、学習率は4e-4、\(\beta_{1} = 0.9\)、\(\beta_{2} = 0.98\)、\(\epsilon = 1e-6\)、重み減衰は0.01、学習率のウォームアップは30,000ステップ、その後は学習率の線形減衰です。
評価
以下の評価情報は、RoBERTaの関連GitHubリポジトリから抽出されています。
テストデータ、要因、およびメトリクス
モデル開発者は、以下のタスクとデータセットで、指定されたメトリクスを使用してモデルを評価したと報告しています。
-
データセット:GLUE (Wang et al., 2019)の一部である、自然言語理解システムを評価するための9つのデータセットのコレクションであるGeneral Language Understanding Evaluationベンチマーク。具体的には、Multi-Genre Natural Language Inference (MNLI)コーパスで評価されました。詳細については、GLUEデータカードまたはWang et al. (2019)を参照してください。
- タスク:NLI。Wang et al. (2019)は、MNLIの推論タスクを以下のように説明しています。
The Multi-Genre Natural Language Inference Corpus (Williams et al., 2018)は、テキスト的含意アノテーション付きの文ペアのクラウドソーシングされたコレクションです。前提文と仮説文が与えられた場合、タスクは、前提が仮説を含意するか(含意)、仮説と矛盾するか(矛盾)、またはどちらでもないか(中立)を予測することです。前提文は、転写されたスピーチ、フィクション、政府報告書など10の異なるソースから収集されています。私たちは標準のテストセットを使用し、著者から非公開のラベルを取得し、一致(ドメイン内)および不一致(クロスドメイン)のセクションの両方で評価します。また、補助学習データの550kの例として、SNLIコーパス(Bowman et al., 2015)を使用し、推奨しています。
- メトリクス:精度
- タスク:NLI。Wang et al. (2019)は、MNLIの推論タスクを以下のように説明しています。
-
データセット:XNLI (Conneau et al., 2018)は、Multi-Genre Natural Language Inference (MNLI)コーパスを15の言語(英語、フランス語、スペイン語、ドイツ語、ギリシャ語、ブルガリア語、ロシア語、トルコ語、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語、スワヒリ語、ウルドゥー語)に拡張したものです。詳細については、XNLIデータカードまたはConneau et al. (2018)を参照してください。
- タスク:翻訳テスト(例えば、モデルを使用して他の言語の入力文を学習言語に翻訳する)
- メトリクス:精度
結果
GLUEテスト結果(開発セット、単一モデル、単一タスクのファインチューニング):MNLIで90.2
XNLIテスト結果:
タスク | 英語 | フランス語 | スペイン語 | ドイツ語 | ギリシャ語 | ブルガリア語 | ロシア語 | トルコ語 | アラビア語 | ベトナム語 | タイ語 | 中国語 | ヒンディー語 | スワヒリ語 | ウルドゥー語 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
91.3 | 82.91 | 84.27 | 81.24 | 81.74 | 83.13 | 78.28 | 76.79 | 76.64 | 74.17 | 74.05 | 77.5 | 70.9 | 66.65 | 66.81 |
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。私たちは、関連論文に基づいて、使用されたハードウェアの種類と時間を提示します。
- ハードウェアの種類:1024台のV100 GPU
- 使用時間:24時間(1日)
- クラウドプロバイダー:不明
- コンピュートリージョン:不明
- 排出された炭素量:不明
技術的詳細
モデリングアーキテクチャ、目的、コンピュートインフラストラクチャ、および学習の詳細については、関連論文を参照してください。
引用情報
@article{liu2019roberta,
title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and
Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and
Luke Zettlemoyer and Veselin Stoyanov},
journal={arXiv preprint arXiv:1907.11692},
year = {2019},
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。



