🚀 Funnel Transformer xlarge模型 (B10 - 10 - 10 帶解碼器)
Funnel Transformer xlarge模型是一個預訓練模型,它使用與 ELECTRA 類似的目標在英文語料上進行訓練。該模型在 這篇論文 中被提出,並首次在 這個倉庫 中發佈。此模型不區分大小寫,即不區分 “english” 和 “English”。
聲明:發佈Funnel Transformer的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
🚀 快速開始
該模型可用於提取給定文本的向量表示,但主要用於在下游任務中進行微調。你可以在 模型中心 查找針對你感興趣的任務進行微調後的版本。
✨ 主要特性
- 自監督預訓練:Funnel Transformer是一個基於自監督方式在大量英文數據語料庫上進行預訓練的Transformer模型。它僅在原始文本上進行預訓練,無需人工進行任何標註,通過自動處理從這些文本中生成輸入和標籤。
- 特徵提取與下游任務:模型學習到英語語言的內部表示,可用於提取對下游任務有用的特徵。例如,若有標記句子的數據集,可使用該模型生成的特徵作為輸入來訓練標準分類器。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face相關庫的安裝說明。
💻 使用示例
基礎用法
以下是如何在PyTorch中使用此模型獲取給定文本的特徵:
from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = FunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高級用法
在TensorFlow中使用此模型獲取給定文本的特徵:
from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/xlarge")
model = TFFunnelModel.from_pretrained("funnel-transformer/xlarge")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 詳細文檔
預期用途和限制
- 可以使用原始模型提取給定文本的向量表示,但主要用於在下游任務中進行微調。
- 此模型主要旨在針對使用整個句子(可能是掩碼的)進行決策的任務進行微調,如序列分類、標記分類或問答任務。對於文本生成等任務,應考慮使用GPT2等模型。
訓練數據
該模型在以下數據集上進行預訓練:
引用信息
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
📄 許可證
該模型使用Apache-2.0許可證。
屬性 |
詳情 |
模型類型 |
Funnel Transformer xlarge模型 (B10 - 10 - 10 帶解碼器) |
訓練數據 |
BookCorpus、英文維基百科、Clue Web、GigaWord、Common Crawl |
⚠️ 重要提示
此模型主要用於使用整個句子(可能是掩碼的)進行決策的任務,如序列分類、標記分類或問答任務。對於文本生成等任務,應考慮使用GPT2等模型。
💡 使用建議
可在 模型中心 查找針對你感興趣的任務進行微調後的版本。