electra-small-generator開源文本編碼器 - 低算力實現優異文本處理性能

首頁

Electra Small Generator

由google開發

ELECTRA是一種通過判別式預訓練而非生成式預訓練的高效文本編碼器，能以較低算力取得優異性能

大型語言模型英語開源協議:Apache-2.0 #文本生成判別 #低算力預訓練 #Transformer架構

下載量 11.07k

發布時間 : 3/2/2022

模型概述

ELECTRA模型採用生成對抗網絡思想，通過判別真實/生成標記進行預訓練。該生成器模型用於生成虛假標記供判別器訓練，但需注意其規模應與判別器保持1:4比例以避免訓練不穩定

模型特點

高效預訓練

相比傳統生成式預訓練，判別式訓練可提升計算效率

對抗訓練機制

採用類似GAN的架構，通過生成器-判別器對抗優化模型

參數效率

小規模模型即可在GLUE/SQuAD等任務達到接近SOTA效果

模型能力

文本編碼

掩碼語言建模

下游任務微調

使用案例

自然語言理解

文本分類

在GLUE基準測試中微調用於情感分析等任務

問答系統

通過SQuAD數據集微調實現機器閱讀理解

論文報告在SQuAD 2.0達到當時SOTA

🚀 ELECTRA：將文本編碼器預訓練為判別器而非生成器

ELECTRA 是一種用於自監督語言表徵學習的新方法。它可以用相對較少的計算資源來預訓練Transformer網絡。ELECTRA模型經過訓練，能夠區分“真實”的輸入標記和由另一個神經網絡生成的“虛假”輸入標記，這與生成對抗網絡（GAN）中的判別器類似。在小規模訓練時，即使僅使用單個GPU，ELECTRA也能取得不錯的效果。在大規模訓練時，ELECTRA在斯坦福問答數據集2.0（SQuAD 2.0）上達到了當前最優的結果。

如需詳細描述和實驗結果，請參考我們的論文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators。

本倉庫包含用於預訓練ELECTRA的代碼，包括在單個GPU上訓練小型ELECTRA模型的代碼。它還支持在下游任務上對ELECTRA進行微調，這些下游任務包括分類任務（例如，通用語言理解評估（GLUE））、問答任務（例如，斯坦福問答數據集（SQuAD））和序列標註任務（例如，文本分塊）。

🚀 快速開始

重要提示

⚠️ 重要提示

這是 ELECTRA原始代碼庫中的官方生成器檢查點。但是，該模型在與 google/electra-small-discriminator 進行預訓練時，規模設置並不合適。論文建議，對於該模型，判別器和生成器之間的超參數乘數應為1/4，以避免訓練不穩定。而使用 google/electra-small-generator 和 google/electra-small-discriminator 時則不會出現這種情況，因為它們的規模相近。

✨ 主要特性

自監督語言表徵學習的新方法，可使用較少計算資源預訓練Transformer網絡。
小規模訓練時單GPU可用，大規模訓練時在SQuAD 2.0數據集上達最優結果。
支持多種下游任務的微調，如分類、問答和序列標註任務。

💻 使用示例

基礎用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="google/electra-small-generator",
    tokenizer="google/electra-small-generator"
)

print(
    fill_mask(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks.")
)