electra-large-generatorオープンソースモデル - 効率的な自己監督学習で言語理解の計算効率を向上させる

ホーム

Electra Large Generator

googleによって開発

ELECTRAは、従来の生成型事前学習を判別型事前学習で置き換えることで、計算効率を大幅に向上させた効率的な自己教師あり言語表現学習手法です。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #テキスト判別事前学習 #効率的なTransformer #敵対的学習

ダウンロード数 473

リリース時間 : 3/2/2022

モデル概要

ELECTRAは判別器アーキテクチャを用いてTransformerモデルを事前学習し、本物のトークンと生成器が作成した偽物のトークンを区別することで言語表現を学習します。GLUEやSQuADなどのタスクで優れた性能を発揮します。

モデル特徴

効率的な事前学習

従来のMLM事前学習方法と比較して、計算効率が4倍以上向上

判別型学習

GANスタイルの判別器アーキテクチャを採用し、本物/偽物のトークンを区別して学習

マルチスケール適応

Base/Small/Largeなど複数のパラメータサイズを選択可能

モデル能力

テキストエンコーディング

言語理解

マスク予測

下流タスクのファインチューニング

使用事例

自然言語理解

GLUEベンチマーク

一般的な言語理解評価ベンチマークで優れた性能を達成

BERTの同規模モデルを上回る

質問応答システム

SQuAD質問応答データセットに適用

SQuAD 2.0で当時のSOTAを達成

テキスト処理

系列ラベリング

テキストチャンキングなどの系列ラベリングタスクをサポート

🚀 ELECTRA: 生成器ではなく識別器としてのテキストエンコーダの事前学習

ELECTRAは、自己教師付き言語表現学習の新しい手法です。比較的少ない計算資源でトランスフォーマーネットワークを事前学習させることができます。ELECTRAモデルは、別のニューラルネットワークによって生成された「偽」の入力トークンと「真」の入力トークンを区別するように学習されます。これは、GANの識別器に似ています。小規模では、単一のGPUで学習しても強力な結果を達成します。大規模では、SQuAD 2.0データセットで最先端の結果を達成します。

詳細な説明と実験結果については、当社の論文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generatorsを参照してください。

このリポジトリには、ELECTRAを事前学習するためのコードが含まれており、単一のGPUで小規模のELECTRAモデルを学習することもサポートしています。また、分類タスク（例：GLUE）、QAタスク（例：SQuAD）、シーケンスタグ付けタスク（例：text chunking）などの下流タスクでELECTRAを微調整することもサポートしています。

🚀 クイックスタート

ELECTRAは、自己教師付き言語表現学習の新しい手法で、比較的少ない計算資源でトランスフォーマーネットワークを事前学習できます。小規模では単一GPUで、大規模ではSQuAD 2.0データセットで優れた結果を達成します。

✨ 主な機能

比較的少ない計算資源でトランスフォーマーネットワークを事前学習できます。
小規模では単一のGPUで学習しても強力な結果を達成します。
大規模では、SQuAD 2.0データセットで最先端の結果を達成します。
下流タスクでの微調整をサポートしています。

💻 使用例

基本的な使用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="google/electra-large-generator",
    tokenizer="google/electra-large-generator"
)

print(
    fill_mask(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks.")
)