electra-large-generator开源模型 - 高效自监督学习，提升语言理解计算效率

首页

Electra Large Generator

由 google 开发

ELECTRA是一种高效的自监督语言表示学习方法，通过判别式预训练替代传统生成式预训练，显著提升计算效率。

大型语言模型英语开源协议:Apache-2.0 #文本判别预训练 #高效Transformer #对抗式学习

下载量 473

发布时间 : 3/2/2022

模型简介

ELECTRA采用判别器架构预训练Transformer模型，通过区分真实标记与生成器伪造的标记来学习语言表示，在GLUE、SQuAD等任务中表现优异。

模型特点

高效预训练

相比传统MLM预训练方法，计算效率提升4倍以上

判别式学习

采用GAN式判别器架构，学习区分真实/伪造标记

多尺度适配

提供Base/Small/Large等多种参数规模选择

模型能力

文本编码

语言理解

掩码预测

下游任务微调

使用案例

自然语言理解

GLUE基准测试

在通用语言理解评估基准上取得优异表现

超越BERT同参数规模模型

问答系统

应用于SQuAD问答数据集

在SQuAD 2.0达到当时SOTA

文本处理

序列标注

支持文本分块等序列标注任务

🚀 ELECTRA：以判别器而非生成器的方式预训练文本编码器

ELECTRA 是一种用于自监督语言表征学习的新方法。它可以用相对较少的计算资源来预训练 Transformer 网络。ELECTRA 模型经过训练，能够区分“真实”的输入标记和由另一个神经网络生成的“虚假”输入标记，这与 GAN 中的判别器类似。在小规模训练时，即使在单个 GPU 上进行训练，ELECTRA 也能取得出色的效果。在大规模训练时，ELECTRA 在 SQuAD 2.0 数据集上达到了当前最优的结果。

如需详细描述和实验结果，请参考我们的论文 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators。

本仓库包含用于预训练 ELECTRA 的代码，包括在单个 GPU 上训练的小型 ELECTRA 模型。它还支持在下游任务上对 ELECTRA 进行微调，这些下游任务包括分类任务（例如 GLUE）、问答任务（例如 SQuAD）和序列标注任务（例如文本分块）。

🚀 快速开始

ELECTRA 为自监督语言表征学习带来了新的思路，通过判别真假输入标记的方式，能以较少计算量完成 Transformer 网络的预训练，在不同规模训练下都有出色表现，且支持多种下游任务的微调。

✨ 主要特性

高效预训练：可以使用相对较少的计算资源来预训练 Transformer 网络。
小规模表现出色：即使在单个 GPU 上进行小规模训练，也能取得良好的效果。
大规模达到最优：在大规模训练时，在 SQuAD 2.0 数据集上达到了当前最优的结果。
支持多任务微调：支持在分类、问答、序列标注等多种下游任务上进行微调。

💻 使用示例

基础用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="google/electra-large-generator",
    tokenizer="google/electra-large-generator"
)

print(
    fill_mask(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks.")
)