🚀 ファネルトランスフォーマー小型モデル (B4 - 4 - 4 デコーダ付き)
ファネルトランスフォーマー小型モデルは、ELECTRA と同様の目的で英語コーパス上で事前学習されたモデルです。このモデルは この論文 で提案され、初めて このリポジトリ で公開されました。このモデルは大文字と小文字を区別せず、つまり "english" と "English" は同じものとして扱われます。
声明: ファネルトランスフォーマーを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードは Hugging Face チームによって作成されました。
✨ 主な機能
ファネルトランスフォーマーは、大量の英語データコーパス上で自己教師付き方式で事前学習されたトランスフォーマーモデルです。これは、このモデルが人為的なテキストのアノテーションなしに、生のテキストのみで事前学習されることを意味します(これが大量の公開データを利用できる理由です)。そして、自動化されたプロセスによってこれらのテキストから入力とラベルが生成されます。
具体的には、小型の言語モデルが入力テキストを破損させ、このモデルの入力生成器として機能します。事前学習の目的は、どのトークンが元のもので、どれが置き換えられたものかを予測することで、GAN のトレーニングに少し似ています。
このようにして、モデルは英語の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付きの文のデータセットがある場合、BERT モデルが生成した特徴を入力として、標準的な分類器をトレーニングすることができます。
🚀 クイックスタート
元のモデルを使用して、与えられたテキストのベクトル表現を抽出することができますが、主に下流タスクでの微調整に使用されます。モデルセンター を参照して、関心のあるタスクに対して微調整されたバージョンを見つけてください。
このモデルは、主に文全体(マスクされている場合もある)を使用して決定を下すタスク、たとえばシーケンス分類、トークン分類、または質問応答などの微調整を目的としています。テキスト生成などのタスクには、GPT2 のようなモデルを検討する必要があります。
💻 使用例
基本的な使用法
以下は、PyTorch でこのモデルを使用して与えられたテキストの特徴を取得する方法です。
from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = FunnelModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高度な使用法
以下は、TensorFlow でこのモデルを使用して与えられたテキストの特徴を取得する方法です。
from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = TFFunnelModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 ドキュメント
学習データ
このモデルは以下のデータセットで事前学習されています。
引用情報
@misc{dai2020funneltransformer,
title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
year={2020},
eprint={2006.03236},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
📄 ライセンス
このプロジェクトは Apache-2.0 ライセンスの下で提供されています。