Intermediate开源Transformer模型 - 基于英语语料，自监督学习获取文本表征

首页

Intermediate

由 funnel-transformer 开发

基于英语语料库预训练的Transformer模型，采用ELECTRA相似的目标任务，通过自监督学习获取文本表征

大型语言模型

Transformers

英语开源协议:Apache-2.0 #ELECTRA式预训练 #文本特征提取 #序列分类优化

下载量 24

发布时间 : 3/2/2022

模型简介

该模型通过自监督方式在海量英语文本上预训练，主要用于提取文本特征或下游任务微调。采用类似GAN的训练方式，通过预测原始/替换标记来学习语言表征。

模型特点

高效序列处理

通过过滤序列冗余实现高效语言处理，降低计算资源消耗

ELECTRA式预训练

采用类似ELECTRA的GAN式训练方法，通过区分原始/替换标记进行学习

不区分大小写

统一处理大小写形式，将'english'和'English'视为相同

模型能力

文本特征提取

序列分类

标记分类

问答系统

使用案例

自然语言处理

文本分类

对整句文本进行分类任务

命名实体识别

识别文本中的特定实体类别

问答系统

阅读理解

基于给定文本回答相关问题

🚀 漏斗变换器中间模型 (B6 - 6 - 6 带解码器)

本模型是在英文语料上进行预训练的模型，采用了与 ELECTRA 类似的目标函数。它在这篇论文中被提出，并首次在这个仓库中发布。该模型不区分大小写：即对 "english" 和 "English" 不作区分。

免责声明：发布漏斗变换器的团队并未为该模型撰写模型卡片，此模型卡片由 Hugging Face 团队编写。

🚀 快速开始

漏斗变换器（Funnel Transformer）是一种基于自监督方式在大量英文数据语料上预训练的变换器模型。这意味着它仅在原始文本上进行预训练，无需人工进行任何标注（因此可以使用大量公开可用的数据），并通过自动流程从这些文本中生成输入和标签。

更确切地说，一个小型语言模型会对输入文本进行破坏，并作为该模型的输入生成器，预训练的目标是预测哪个标记是原始的，哪个是被替换的，有点类似于生成对抗网络（GAN）的训练。

通过这种方式，模型学习到英语语言的内部表示，可用于提取对下游任务有用的特征：例如，如果您有一个带标签句子的数据集，可以使用 BERT 模型生成的特征作为输入，训练一个标准的分类器。

✨ 主要特性

自监督学习：在大量英文数据上进行自监督预训练，学习语言的内部表示。
特征提取：可用于提取文本的向量表示，为下游任务提供有用特征。
多任务适用性：适用于多种下游任务，如序列分类、标记分类或问答等。

💻 使用示例

基础用法

以下是如何在 PyTorch 中使用此模型获取给定文本的特征：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate")
model = FunnelModel.from_pretrained("funnel-transformer/intermediate")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高级用法

以下是在 TensorFlow 中使用此模型获取给定文本的特征：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate")
model = TFFunnelModel.from_pretrained("funnel-transformer/intermediatesmall")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 详细文档

预期用途和限制

您可以使用原始模型提取给定文本的向量表示，但它主要用于在下游任务上进行微调。请查看模型中心，查找您感兴趣任务的微调版本。

请注意，此模型主要旨在用于需要使用整个句子（可能经过掩码处理）来做出决策的任务，如序列分类、标记分类或问答。对于文本生成等任务，您应该考虑使用 GPT2 等模型。

训练数据

该模型在以下数据集上进行了预训练：

BookCorpus，一个包含 11,038 本未出版书籍的数据集。
英文维基百科（不包括列表、表格和标题）。
Clue Web，一个包含 733,019,372 个英文网页的数据集。
GigaWord，一个新闻专线文本数据存档。
Common Crawl，一个原始网页数据集。

BibTeX 引用

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}