🚀 Funnel Transformer中間模型(無解碼器的B6 - 6 - 6)
Funnel Transformer中間模型是一個基於自監督學習的預訓練模型,它使用與ELECTRA類似的目標在英文語料上進行訓練。該模型在this paper中被提出,並首次在this repository中發佈。此模型不區分大小寫:它對“english”和“English”不做區分。
聲明:發佈Funnel Transformer的團隊並未為此模型撰寫模型卡片,此模型卡片由Hugging Face團隊撰寫。
✨ 主要特性
- 基於自監督學習在大規模英文語料上進行預訓練,可學習到英文語言的內在表示,用於下游任務特徵提取。
- 模型不包含解碼器,輸出的隱藏狀態序列長度為輸入的四分之一,適合需要句子摘要的任務。
📚 詳細文檔
模型描述
Funnel Transformer是一個以自監督方式在大量英文數據語料上進行預訓練的Transformer模型。這意味著它僅在原始文本上進行預訓練,沒有人工對其進行任何標註(這就是它可以使用大量公開可用數據的原因),而是通過自動過程從這些文本中生成輸入和標籤。
更確切地說,一個小型語言模型會對輸入文本進行破壞,並作為該模型輸入的生成器,預訓練的目標是預測哪個標記是原始標記,哪個是被替換的標記,有點像GAN訓練。
通過這種方式,模型學習到英文語言的內在表示,然後可用於提取對下游任務有用的特徵:例如,如果您有一個標記好的句子數據集,您可以使用BERT模型生成的特徵作為輸入來訓練一個標準分類器。
注意:此模型不包含解碼器,因此它輸出的隱藏狀態序列長度是輸入的四分之一。它適用於需要句子摘要的任務(如句子分類),但如果您需要每個初始標記都有一個輸入,則不適用。在這種情況下,您應該使用intermediate
模型。
預期用途和限制
您可以使用原始模型提取給定文本的向量表示,但它主要用於在下游任務上進行微調。請參閱模型中心,查找針對您感興趣的任務進行微調的版本。
請注意,此模型主要旨在針對使用整個句子(可能經過掩碼處理)進行決策的任務進行微調,例如序列分類、標記分類或問答。對於文本生成等任務,您應該考慮使用GPT2等模型。
💻 使用示例
基礎用法
以下是如何在PyTorch中使用此模型提取給定文本的特徵:
from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的使用示例:
from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
🔧 技術細節
訓練數據
該模型在以下數據集上進行預訓練:
BibTeX引用和引用信息
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
📄 許可證
本項目採用Apache 2.0許可證。