small開源Transformer模型 - 基於英語語料，用於文本特徵提取與任務微調

首頁

Small

由funnel-transformer開發

基於英語語料庫預訓練的Transformer模型，採用ELECTRA類似目標訓練，適用於文本特徵提取和下游任務微調

大型語言模型

Transformers

英語開源協議:Apache-2.0 #ELECTRA式預訓練 #無大小寫區分 #文本特徵提取

下載量 6,084

發布時間 : 3/2/2022

模型概述

該模型通過自監督方式在大型英語文本語料庫上預訓練，學習英語語言的內部表徵，可用於提取下游任務所需的特徵或進行微調

模型特點

漏斗式結構

通過過濾序列冗餘實現高效語言處理，提升模型效率

ELECTRA式預訓練

採用類似ELECTRA的生成對抗訓練方式，預測原始/替換標記

無大小寫區分

不區分大小寫形式，統一處理文本輸入

模型能力

文本特徵提取

序列分類

標記分類

問答任務處理

使用案例

自然語言處理

文本分類

對文本進行情感分析或主題分類

命名實體識別

識別文本中的人名、地名等實體

🚀 漏斗變換器小型模型 (B4 - 4 - 4 帶解碼器)

漏斗變換器小型模型是一個使用與 ELECTRA 類似目標在英語語料上預訓練的模型。它在這篇論文中被提出，並首次在這個倉庫中發佈。該模型不區分大小寫，即 "english" 和 "English" 對它來說是相同的。

聲明：發佈漏斗變換器的團隊並未為該模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

✨ 主要特性

漏斗變換器是一個以自監督方式在大量英語數據語料上預訓練的變換器模型。這意味著它僅在原始文本上進行預訓練，沒有人工對文本進行任何標註（這也是它可以利用大量公開可用數據的原因），並通過自動流程從這些文本中生成輸入和標籤。

更確切地說，一個小型語言模型會對輸入文本進行損壞處理，並作為該模型的輸入生成器，預訓練的目標是預測哪個標記是原始的，哪個是被替換的，有點類似於 GAN 訓練。

通過這種方式，模型學習到英語語言的內部表示，然後可用於提取對下游任務有用的特徵：例如，如果你有一個帶標籤句子的數據集，你可以使用 BERT 模型生成的特徵作為輸入，訓練一個標準分類器。

🚀 快速開始

你可以使用原始模型提取給定文本的向量表示，但它主要用於在下游任務上進行微調。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

請注意，該模型主要旨在針對使用整個句子（可能經過掩碼處理）來做出決策的任務進行微調，例如序列分類、標記分類或問答。對於文本生成等任務，你應該考慮使用像 GPT2 這樣的模型。

💻 使用示例

基礎用法

以下是如何在 PyTorch 中使用該模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = FunneModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高級用法

以下是如何在 TensorFlow 中使用該模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = TFFunnelModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

訓練數據

該模型在以下數據集上進行了預訓練：

BookCorpus，一個包含 11,038 本未出版書籍的數據集。
英文維基百科（不包括列表、表格和標題）。
Clue Web，一個包含 733,019,372 個英文網頁的數據集。
GigaWord，一個新聞專線文本數據存檔。
Common Crawl，一個原始網頁數據集。

引用信息

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}