Funnel Transformer開源英語文本預訓練模型 - 過濾冗餘實現高效語言處理

首頁

Xlarge

由funnel-transformer開發

Funnel Transformer是一種基於自監督學習的英語文本預訓練模型，採用類似ELECTRA的目標任務，通過過濾序列冗餘實現高效語言處理。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #ELECTRA式預訓練 #文本特徵提取 #不區分大小寫

下載量 31

發布時間 : 3/2/2022

模型概述

該模型基於大量英語文本預訓練，主要用於提取文本特徵或在下游任務上進行微調，適用於序列分類、標記分類或問答等任務。

模型特點

高效序列處理

通過過濾序列冗餘設計，實現更高效的語言處理

類ELECTRA預訓練

採用類似ELECTRA的替換標記檢測任務進行預訓練

不區分大小寫

模型對大小寫不敏感，統一處理相同單詞的不同大小寫形式

模型能力

文本特徵提取

序列分類

標記分類

問答任務

使用案例

自然語言處理

文本分類

可用於情感分析、主題分類等文本分類任務

命名實體識別

可用於識別文本中的人名、地名、組織名等實體

🚀 Funnel Transformer xlarge模型 (B10 - 10 - 10 帶解碼器)

Funnel Transformer xlarge模型是一個預訓練模型，它使用與 ELECTRA 類似的目標在英文語料上進行訓練。該模型在這篇論文中被提出，並首次在這個倉庫中發佈。此模型不區分大小寫，即不區分 “english” 和 “English”。

聲明：發佈Funnel Transformer的團隊並未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

🚀 快速開始

該模型可用於提取給定文本的向量表示，但主要用於在下游任務中進行微調。你可以在模型中心查找針對你感興趣的任務進行微調後的版本。

✨ 主要特性

自監督預訓練：Funnel Transformer是一個基於自監督方式在大量英文數據語料庫上進行預訓練的Transformer模型。它僅在原始文本上進行預訓練，無需人工進行任何標註，通過自動處理從這些文本中生成輸入和標籤。
特徵提取與下游任務：模型學習到英語語言的內部表示，可用於提取對下游任務有用的特徵。例如，若有標記句子的數據集，可使用該模型生成的特徵作為輸入來訓練標準分類器。

📦 安裝指南

文檔未提及具體安裝步驟，可參考Hugging Face相關庫的安裝說明。

💻 使用示例

基礎用法

以下是如何在PyTorch中使用此模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = FunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高級用法

在TensorFlow中使用此模型獲取給定文本的特徵：

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = TFFunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

預期用途和限制

可以使用原始模型提取給定文本的向量表示，但主要用於在下游任務中進行微調。
此模型主要旨在針對使用整個句子（可能是掩碼的）進行決策的任務進行微調，如序列分類、標記分類或問答任務。對於文本生成等任務，應考慮使用GPT2等模型。

訓練數據

該模型在以下數據集上進行預訓練：

BookCorpus，包含11,038本未出版書籍的數據集。
英文維基百科（不包括列表、表格和標題）。
Clue Web，包含733,019,372個英文網頁的數據集。
GigaWord，新聞專線文本數據存檔。
Common Crawl，原始網頁數據集。

引用信息

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

📄 許可證

該模型使用Apache-2.0許可證。

屬性	詳情
模型類型	Funnel Transformer xlarge模型 (B10 - 10 - 10 帶解碼器)
訓練數據	BookCorpus、英文維基百科、Clue Web、GigaWord、Common Crawl