🚀 Funnel Transformer中间模型(无解码器的B6 - 6 - 6)
Funnel Transformer中间模型是一个基于自监督学习的预训练模型,它使用与ELECTRA类似的目标在英文语料上进行训练。该模型在this paper中被提出,并首次在this repository中发布。此模型不区分大小写:它对“english”和“English”不做区分。
声明:发布Funnel Transformer的团队并未为此模型撰写模型卡片,此模型卡片由Hugging Face团队撰写。
✨ 主要特性
- 基于自监督学习在大规模英文语料上进行预训练,可学习到英文语言的内在表示,用于下游任务特征提取。
- 模型不包含解码器,输出的隐藏状态序列长度为输入的四分之一,适合需要句子摘要的任务。
📚 详细文档
模型描述
Funnel Transformer是一个以自监督方式在大量英文数据语料上进行预训练的Transformer模型。这意味着它仅在原始文本上进行预训练,没有人工对其进行任何标注(这就是它可以使用大量公开可用数据的原因),而是通过自动过程从这些文本中生成输入和标签。
更确切地说,一个小型语言模型会对输入文本进行破坏,并作为该模型输入的生成器,预训练的目标是预测哪个标记是原始标记,哪个是被替换的标记,有点像GAN训练。
通过这种方式,模型学习到英文语言的内在表示,然后可用于提取对下游任务有用的特征:例如,如果您有一个标记好的句子数据集,您可以使用BERT模型生成的特征作为输入来训练一个标准分类器。
注意:此模型不包含解码器,因此它输出的隐藏状态序列长度是输入的四分之一。它适用于需要句子摘要的任务(如句子分类),但如果您需要每个初始标记都有一个输入,则不适用。在这种情况下,您应该使用intermediate
模型。
预期用途和限制
您可以使用原始模型提取给定文本的向量表示,但它主要用于在下游任务上进行微调。请参阅模型中心,查找针对您感兴趣的任务进行微调的版本。
请注意,此模型主要旨在针对使用整个句子(可能经过掩码处理)进行决策的任务进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该考虑使用GPT2等模型。
💻 使用示例
基础用法
以下是如何在PyTorch中使用此模型提取给定文本的特征:
from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的使用示例:
from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📦 安装指南
文档未提及安装步骤,暂不提供。
🔧 技术细节
训练数据
该模型在以下数据集上进行预训练:
BibTeX引用和引用信息
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
📄 许可证
本项目采用Apache 2.0许可证。