electra-large-generator開源模型 - 高效自監督學習，提升語言理解計算效率

首頁

Electra Large Generator

由google開發

ELECTRA是一種高效的自監督語言表示學習方法，通過判別式預訓練替代傳統生成式預訓練，顯著提升計算效率。

大型語言模型英語開源協議:Apache-2.0 #文本判別預訓練 #高效Transformer #對抗式學習

下載量 473

發布時間 : 3/2/2022

模型概述

ELECTRA採用判別器架構預訓練Transformer模型，通過區分真實標記與生成器偽造的標記來學習語言表示，在GLUE、SQuAD等任務中表現優異。

模型特點

高效預訓練

相比傳統MLM預訓練方法，計算效率提升4倍以上

判別式學習

採用GAN式判別器架構，學習區分真實/偽造標記

多尺度適配

提供Base/Small/Large等多種參數規模選擇

模型能力

文本編碼

語言理解

掩碼預測

下游任務微調

使用案例

自然語言理解

GLUE基準測試

在通用語言理解評估基準上取得優異表現

超越BERT同參數規模模型

問答系統

應用於SQuAD問答數據集

在SQuAD 2.0達到當時SOTA

文本處理

序列標註

支持文本分塊等序列標註任務

🚀 ELECTRA：以判別器而非生成器的方式預訓練文本編碼器

ELECTRA 是一種用於自監督語言表徵學習的新方法。它可以用相對較少的計算資源來預訓練 Transformer 網絡。ELECTRA 模型經過訓練，能夠區分“真實”的輸入標記和由另一個神經網絡生成的“虛假”輸入標記，這與 GAN 中的判別器類似。在小規模訓練時，即使在單個 GPU 上進行訓練，ELECTRA 也能取得出色的效果。在大規模訓練時，ELECTRA 在 SQuAD 2.0 數據集上達到了當前最優的結果。

如需詳細描述和實驗結果，請參考我們的論文 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators。

本倉庫包含用於預訓練 ELECTRA 的代碼，包括在單個 GPU 上訓練的小型 ELECTRA 模型。它還支持在下游任務上對 ELECTRA 進行微調，這些下游任務包括分類任務（例如 GLUE）、問答任務（例如 SQuAD）和序列標註任務（例如文本分塊）。

🚀 快速開始

ELECTRA 為自監督語言表徵學習帶來了新的思路，通過判別真假輸入標記的方式，能以較少計算量完成 Transformer 網絡的預訓練，在不同規模訓練下都有出色表現，且支持多種下游任務的微調。

✨ 主要特性

高效預訓練：可以使用相對較少的計算資源來預訓練 Transformer 網絡。
小規模表現出色：即使在單個 GPU 上進行小規模訓練，也能取得良好的效果。
大規模達到最優：在大規模訓練時，在 SQuAD 2.0 數據集上達到了當前最優的結果。
支持多任務微調：支持在分類、問答、序列標註等多種下游任務上進行微調。

💻 使用示例

基礎用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="google/electra-large-generator",
    tokenizer="google/electra-large-generator"
)

print(
    fill_mask(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks.")
)