Large開源英語Transformer模型 - 免費自監督學習英語語言內在表示

首頁

Large

由funnel-transformer開發

基於英語語料預訓練的Transformer模型，採用ELECTRA類似的目標函數，通過自監督方式學習英語語言的內在表示。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #ELECTRA式預訓練 #文本特徵提取 #序列決策任務

下載量 190

發布時間 : 3/2/2022

模型概述

該模型是一種基於自監督方式在大規模英語文本上預訓練的Transformer模型，主要用於提取文本特徵以支持下游任務。

模型特點

自監督預訓練

通過原始文本進行預訓練，無需人工標註，利用自動化流程從文本生成輸入和標籤。

ELECTRA類似目標函數

使用小型語言模型破壞輸入文本並作為生成器，預測哪些標記是原始內容或被替換過。

高效序列處理

漏斗式結構通過過濾序列冗餘實現高效語言處理。

模型能力

文本特徵提取

序列分類

標記分類

問答任務

使用案例

自然語言處理

文本分類

利用模型生成的特徵訓練標準分類器進行文本分類。

問答系統

基於模型提取的文本特徵構建問答系統。

🚀 漏斗變換器（Funnel Transformer）大型模型 (B8 - 8 - 8 帶解碼器)

Funnel Transformer是一個預訓練模型，它使用與 ELECTRA 類似的目標在英文語料上進行訓練。該模型在這篇論文中被提出，並首次在這個倉庫中發佈。此模型不區分大小寫：它對 "english" 和 "English" 一視同仁。

免責聲明：發佈 Funnel Transformer 的團隊並未為此模型撰寫模型卡片，本模型卡片由 Hugging Face 團隊撰寫。

🚀 快速開始

Funnel Transformer 是一個以自監督方式在大量英文數據語料庫上進行預訓練的變換器（Transformer）模型。這意味著它僅在原始文本上進行預訓練，沒有人工對其進行任何標註（這也是它可以使用大量公開可用數據的原因），並通過自動流程從這些文本中生成輸入和標籤。

更確切地說，一個小型語言模型會對輸入文本進行擾亂，並作為此模型的輸入生成器，預訓練的目標是預測哪個標記是原始標記，哪個是被替換的標記，有點類似於生成對抗網絡（GAN）的訓練。

通過這種方式，模型學習到英語語言的內部表示，然後可用於提取對下游任務有用的特徵：例如，如果您有一個帶標籤的句子數據集，您可以使用 BERT 模型生成的特徵作為輸入來訓練一個標準分類器。

✨ 主要特性

預期用途與侷限性

您可以使用原始模型來提取給定文本的向量表示，但它主要用於在下游任務上進行微調。請查看模型中心以查找針對您感興趣的任務進行微調的版本。

請注意，此模型主要旨在針對使用整個句子（可能經過掩碼處理）來做出決策的任務進行微調，例如序列分類、標記分類或問答任務。對於文本生成等任務，您應該考慮使用像 GPT2 這樣的模型。

如何使用

以下是如何在 PyTorch 中使用此模型來獲取給定文本的特徵：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/large")
model = FunneModel.from_pretrained("funnel-transformer/large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在 TensorFlow 中的使用方式如下：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/large")
model = TFFunnelModel.from_pretrained("funnel-transformer/large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

訓練數據

BERT 模型在以下數據集上進行了預訓練：

BookCorpus，一個包含 11,038 本未出版書籍的數據集。
英文維基百科（不包括列表、表格和標題）。
Clue Web，一個包含 733,019,372 個英文網頁的數據集。
GigaWord，一個新聞專線文本數據存檔。
Common Crawl，一個原始網頁數據集。

BibTeX 引用和引用信息

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}