🚀 Funnel Transformerミディアムモデル (B6-3x2-3x2 デコーダーなし)
ELECTRAと同様の目的で英語で事前学習されたモデルです。このモデルは、この論文で紹介され、このリポジトリで最初に公開されました。このモデルは大文字小文字を区別しません。つまり、englishとEnglishは同じとみなされます。
免責事項: Funnel Transformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
✨ 主な機能
モデルの説明
Funnel Transformerは、自己教師付き学習方式で大量の英語データコーパスで事前学習されたトランスフォーマーモデルです。つまり、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して事前学習されています(このため、大量の公開データを利用できます)。そして、それらのテキストから入力とラベルを自動的に生成するプロセスが行われます。
より正確には、小さな言語モデルが入力テキストを破損させ、このモデルの入力の生成器として機能します。事前学習の目的は、どのトークンが元のもので、どれが置き換えられたものかを予測することで、GANのトレーニングに少し似ています。
このようにして、モデルは英語の内部表現を学習し、下流のタスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付けされた文のデータセットがある場合、BERTモデルが生成する特徴を入力として使用して、標準的な分類器をトレーニングすることができます。
注意: このモデルにはデコーダーが含まれていないため、出力される隠れ状態のシーケンス長は入力の4分の1になります。文の要約が必要なタスク(文分類など)には適していますが、元の各トークンに対して1つの入力が必要な場合は適していません。その場合はmedium
モデルを使用する必要があります。
想定される用途と制限
生のモデルを使用して、与えられたテキストのベクトル表現を抽出することもできますが、主に下流のタスクでファインチューニングすることを想定しています。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。
このモデルは、主に文全体(場合によってはマスクされたもの)を使用して決定を行うタスクでファインチューニングすることを目的としています。たとえば、シーケンス分類、トークン分類、質問応答などです。テキスト生成などのタスクには、GPT2のようなモデルを使用する必要があります。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/medium-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/medium-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高度な使用法
from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/medium-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/medium-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 ドキュメント
トレーニングデータ
このモデルは以下のデータセットで事前学習されています。
BibTeXエントリと引用情報
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
📄 ライセンス
このモデルはApache License 2.0の下で公開されています。