Intermediate開源Transformer模型 - 基於英語語料，自監督學習獲取文本表徵

首頁

Intermediate

由funnel-transformer開發

基於英語語料庫預訓練的Transformer模型，採用ELECTRA相似的目標任務，通過自監督學習獲取文本表徵

大型語言模型

Transformers

英語開源協議:Apache-2.0 #ELECTRA式預訓練 #文本特徵提取 #序列分類優化

下載量 24

發布時間 : 3/2/2022

模型概述

該模型通過自監督方式在海量英語文本上預訓練，主要用於提取文本特徵或下游任務微調。採用類似GAN的訓練方式，通過預測原始/替換標記來學習語言表徵。

模型特點

高效序列處理

通過過濾序列冗餘實現高效語言處理，降低計算資源消耗

ELECTRA式預訓練

採用類似ELECTRA的GAN式訓練方法，通過區分原始/替換標記進行學習

不區分大小寫

統一處理大小寫形式，將'english'和'English'視為相同

模型能力

文本特徵提取

序列分類

標記分類

問答系統

使用案例

自然語言處理

文本分類

對整句文本進行分類任務

命名實體識別

識別文本中的特定實體類別

問答系統

閱讀理解

基於給定文本回答相關問題

🚀 漏斗變換器中間模型 (B6 - 6 - 6 帶解碼器)

本模型是在英文語料上進行預訓練的模型，採用了與 ELECTRA 類似的目標函數。它在這篇論文中被提出，並首次在這個倉庫中發佈。該模型不區分大小寫：即對 "english" 和 "English" 不作區分。

免責聲明：發佈漏斗變換器的團隊並未為該模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

🚀 快速開始

漏斗變換器（Funnel Transformer）是一種基於自監督方式在大量英文數據語料上預訓練的變換器模型。這意味著它僅在原始文本上進行預訓練，無需人工進行任何標註（因此可以使用大量公開可用的數據），並通過自動流程從這些文本中生成輸入和標籤。

更確切地說，一個小型語言模型會對輸入文本進行破壞，並作為該模型的輸入生成器，預訓練的目標是預測哪個標記是原始的，哪個是被替換的，有點類似於生成對抗網絡（GAN）的訓練。

通過這種方式，模型學習到英語語言的內部表示，可用於提取對下游任務有用的特徵：例如，如果您有一個帶標籤句子的數據集，可以使用 BERT 模型生成的特徵作為輸入，訓練一個標準的分類器。

✨ 主要特性

自監督學習：在大量英文數據上進行自監督預訓練，學習語言的內部表示。
特徵提取：可用於提取文本的向量表示，為下游任務提供有用特徵。
多任務適用性：適用於多種下游任務，如序列分類、標記分類或問答等。

💻 使用示例

基礎用法

以下是如何在 PyTorch 中使用此模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate")
model = FunnelModel.from_pretrained("funnel-transformer/intermediate")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高級用法

以下是在 TensorFlow 中使用此模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate")
model = TFFunnelModel.from_pretrained("funnel-transformer/intermediatesmall")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

預期用途和限制

您可以使用原始模型提取給定文本的向量表示，但它主要用於在下游任務上進行微調。請查看模型中心，查找您感興趣任務的微調版本。

請注意，此模型主要旨在用於需要使用整個句子（可能經過掩碼處理）來做出決策的任務，如序列分類、標記分類或問答。對於文本生成等任務，您應該考慮使用 GPT2 等模型。

訓練數據

該模型在以下數據集上進行了預訓練：

BookCorpus，一個包含 11,038 本未出版書籍的數據集。
英文維基百科（不包括列表、表格和標題）。
Clue Web，一個包含 733,019,372 個英文網頁的數據集。
GigaWord，一個新聞專線文本數據存檔。
Common Crawl，一個原始網頁數據集。

BibTeX 引用

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}