roberta-large-mnliオープンソーステキスト分類モデル - 無料でデプロイしてゼロショット分類タスクを支援

ホーム

Roberta Large Mnli

FacebookAIによって開発

RoBERTa大型モデルをMNLIコーパスで微調整したテキスト分類モデルで、ゼロショット分類タスクに適しています。

大規模言語モデル英語オープンソースライセンス:MIT #ゼロショット分類 #多体裁推論 #英語NLP

ダウンロード数 262.29k

リリース時間 : 3/2/2022

モデル概要

このモデルはマスク言語モデリングの目的で事前学習され、多体裁自然言語推論コーパスで微調整された言語モデルで、主にテキスト分類と自然言語推論タスクに使用されます。

モデル特徴

ゼロショット分類能力

特定のタスクでの学習を必要とせずに、直接テキスト分類タスクに適用できます。

多体裁適応

多様な文体と分野を含むMNLIコーパスで微調整されており、強い汎化能力を持っています。

大規模事前学習

160GBの多様な英語テキストデータを基に事前学習されており、強力な言語理解能力を持っています。

モデル能力

ゼロショットテキスト分類

自然言語推論

テキスト含意判断

使用事例

テキスト分類

感情分析

特定の学習を必要とせずに、テキストの感情傾向を判断できます。

主題分類

見たことのない主題のテキストを分類できます。

コンテンツ審査

不適切コンテンツ識別

テキスト内の不適切または敏感なコンテンツを識別します。

🚀 roberta-large-mnli

roberta-large-mnliは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされたTransformerベースの言語モデルです。英語のテキストに対して、マスク言語モデリング（MLM）の目的で事前学習されています。

🚀 クイックスタート

以下のコードを使用して、モデルを始めることができます。このモデルは、zero-shot-classificationパイプラインでロードすることができます。

from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')

このパイプラインを使用して、指定したクラス名のいずれかにシーケンスを分類することができます。例えば：

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)

✨ 主な機能

直接的な利用

このファインチューニングされたモデルは、ゼロショット分類タスクに使用できます。これには、ゼロショット文ペア分類（例はGitHubリポジトリを参照）やゼロショットシーケンス分類が含まれます。

誤用と範囲外の利用

このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。また、このモデルは、人やイベントの事実的または真実の表現を学習するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。

📦 インストール

このセクションでは、モデルを使用するためのコード例が提供されていますが、インストール手順に関する具体的なコマンドは記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')

高度な使用法

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)

📚 ドキュメント

モデルの詳細

開発者: モデルの開発者については、GitHubリポジトリを参照してください。
モデルの種類: Transformerベースの言語モデル
言語: 英語
ライセンス: MIT
親モデル: このモデルは、RoBERTa largeモデルのファインチューニングバージョンです。関連情報については、RoBERTa largeモデルカードを参照してください。
詳細情報のリソース:
- 研究論文
- GitHubリポジトリ

プロパティ	詳細
モデルの種類	Transformerベースの言語モデル
学習データ	このモデルは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされています。また、MNLIデータカードを参照してください。RoBERTaモデルは、5つのデータセットの統合で事前学習されています。これらのデータセットは合計で160GBのテキストを含んでいます。詳細はRoBERTa largeモデルカードを参照してください。

プロパティ

詳細

モデルの種類

Transformerベースの言語モデル

学習データ

このモデルは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされています。また、MNLIデータカードを参照してください。RoBERTaモデルは、5つのデータセットの統合で事前学習されています。これらのデータセットは合計で160GBのテキストを含んでいます。詳細はRoBERTa largeモデルカードを参照してください。

リスク、制限事項、バイアス

⚠️ 重要な注意

このセクションには、不快な、不快な内容が含まれており、歴史的および現在のステレオタイプを広める可能性があります。

多くの研究で、言語モデルのバイアスと公平性の問題が調査されています（例えば、Sheng et al. (2021) および Bender et al. (2021) を参照）。RoBERTa largeモデルカードには、「このモデルに使用される学習データには、ネットからの多くの未フィルタリングのコンテンツが含まれており、中立性に欠けています」と記載されています。

モデルによって生成される予測には、保護されたクラス、アイデンティティの特徴、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。例えば：

sequence_to_classify = "The CEO had a strong handshake."
candidate_labels = ['male', 'female']
hypothesis_template = "This text speaks about a {} profession."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)

ユーザー（直接的および下流のユーザー）は、モデルのリスク、バイアス、および制限事項を認識する必要があります。

学習

学習データ

このモデルは、Multi-Genre Natural Language Inference (MNLI)コーパスでファインチューニングされています。詳細については、MNLIデータカードを参照してください。

RoBERTa largeモデルカードに記載されているように、RoBERTaモデルは、5つのデータセットの統合で事前学習されています。

BookCorpus：11,038冊の未公開の本から構成されるデータセット
English Wikipedia（リスト、テーブル、ヘッダーを除く）
CC-News：2016年9月から2019年2月の間にクロールされた6300万件の英語のニュース記事を含むデータセット
OpenWebText：GPT-2の学習に使用されたWebTextデータセットのオープンソースの再現版
Stories：CommonCrawlデータのサブセットをWinogradスキーマのストーリー風スタイルに合わせてフィルタリングしたデータセット

これらのデータセットは合計で160GBのテキストを含んでいます。また、bookcorpusデータカードとwikipediaデータカードを参照してください。

学習手順

前処理

RoBERTa largeモデルカードに記載されているように、テキストはByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化され、語彙サイズは50,000です。モデルの入力は、ドキュメントをまたがる可能性のある512個の連続したトークンのピースを取ります。新しいドキュメントの始まりは<s>で、終わりは</s>でマークされます。

各文のマスキング手順の詳細は以下の通りです：

15%のトークンがマスクされます。
80%のケースで、マスクされたトークンは<mask>に置き換えられます。
10%のケースで、マスクされたトークンは、置き換えるトークンとは異なるランダムなトークンに置き換えられます。
残りの10%のケースでは、マスクされたトークンはそのまま残されます。

BERTとは異なり、マスキングは事前学習中に動的に行われます（例えば、各エポックで変化し、固定されていません）。

事前学習

RoBERTa largeモデルカードに記載されているように、このモデルは、1024台のV100 GPUで500Kステップ、バッチサイズ8K、シーケンス長512で学習されました。使用されたオプティマイザはAdamで、学習率は4e-4、\(\beta_{1} = 0.9\)、\(\beta_{2} = 0.98\)、\(\epsilon = 1e-6\)、重み減衰は0.01、学習率のウォームアップは30,000ステップ、その後は学習率の線形減衰です。

評価

以下の評価情報は、RoBERTaの関連GitHubリポジトリから抽出されています。

テストデータ、要因、およびメトリクス

モデル開発者は、以下のタスクとデータセットで、指定されたメトリクスを使用してモデルを評価したと報告しています。

データセット：GLUE (Wang et al., 2019)の一部である、自然言語理解システムを評価するための9つのデータセットのコレクションであるGeneral Language Understanding Evaluationベンチマーク。具体的には、Multi-Genre Natural Language Inference (MNLI)コーパスで評価されました。詳細については、GLUEデータカードまたはWang et al. (2019)を参照してください。
- タスク：NLI。Wang et al. (2019)は、MNLIの推論タスクを以下のように説明しています。
  
  The Multi-Genre Natural Language Inference Corpus (Williams et al., 2018)は、テキスト的含意アノテーション付きの文ペアのクラウドソーシングされたコレクションです。前提文と仮説文が与えられた場合、タスクは、前提が仮説を含意するか（含意）、仮説と矛盾するか（矛盾）、またはどちらでもないか（中立）を予測することです。前提文は、転写されたスピーチ、フィクション、政府報告書など10の異なるソースから収集されています。私たちは標準のテストセットを使用し、著者から非公開のラベルを取得し、一致（ドメイン内）および不一致（クロスドメイン）のセクションの両方で評価します。また、補助学習データの550kの例として、SNLIコーパス(Bowman et al., 2015)を使用し、推奨しています。
- メトリクス：精度
データセット：XNLI (Conneau et al., 2018)は、Multi-Genre Natural Language Inference (MNLI)コーパスを15の言語（英語、フランス語、スペイン語、ドイツ語、ギリシャ語、ブルガリア語、ロシア語、トルコ語、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語、スワヒリ語、ウルドゥー語）に拡張したものです。詳細については、XNLIデータカードまたはConneau et al. (2018)を参照してください。
- タスク：翻訳テスト（例えば、モデルを使用して他の言語の入力文を学習言語に翻訳する）
- メトリクス：精度

結果

GLUEテスト結果（開発セット、単一モデル、単一タスクのファインチューニング）：MNLIで90.2

XNLIテスト結果：

タスク	英語	フランス語	スペイン語	ドイツ語	ギリシャ語	ブルガリア語	ロシア語	トルコ語	アラビア語	ベトナム語	タイ語	中国語	ヒンディー語	スワヒリ語	ウルドゥー語
	91.3	82.91	84.27	81.24	81.74	83.13	78.28	76.79	76.64	74.17	74.05	77.5	70.9	66.65	66.81

環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。私たちは、関連論文に基づいて、使用されたハードウェアの種類と時間を提示します。

ハードウェアの種類：1024台のV100 GPU
使用時間：24時間（1日）
クラウドプロバイダー：不明
コンピュートリージョン：不明
排出された炭素量：不明

技術的詳細

モデリングアーキテクチャ、目的、コンピュートインフラストラクチャ、および学習の詳細については、関連論文を参照してください。

引用情報

@article{liu2019roberta,
    title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
    author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and
              Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and
              Luke Zettlemoyer and Veselin Stoyanov},
    journal={arXiv preprint arXiv:1907.11692},
    year = {2019},
}