SmallオープンソースTransformerモデル - 英語コーパスに基づく、テキスト特徴抽出とタスク微調整用

ホーム

Small

funnel-transformerによって開発

英語コーパスで事前学習されたTransformerモデルで、ELECTRAに似た目的で学習され、テキスト特徴抽出と下流タスクの微調整に適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #ELECTRA方式の事前学習 #大文字小文字の区別なし #テキスト特徴抽出

ダウンロード数 6,084

リリース時間 : 3/2/2022

モデル概要

このモデルは、自己教師付き学習方式で大規模な英語テキストコーパスで事前学習され、英語の内部表現を学習し、下流タスクに必要な特徴を抽出したり、微調整したりするために使用できます。

モデル特徴

漏斗型構造

シーケンスの冗長性をフィルタリングすることで、効率的な言語処理を実現し、モデルの効率を向上させます。

ELECTRA方式の事前学習

ELECTRAに似た敵対的生成学習方式を採用し、元の/置き換えられたトークンを予測します。

大文字小文字の区別なし

大文字と小文字を区別せず、テキスト入力を統一的に処理します。

モデル能力

テキスト特徴抽出

シーケンス分類

タグ分類

質問応答タスクの処理

使用事例

自然言語処理

テキスト分類

テキストの感情分析やトピック分類を行います。

固有表現抽出

テキスト内の人名、地名などの固有表現を識別します。

🚀 ファネルトランスフォーマー小型モデル (B4 - 4 - 4 デコーダ付き)

ファネルトランスフォーマー小型モデルは、ELECTRA と同様の目的で英語コーパス上で事前学習されたモデルです。このモデルはこの論文で提案され、初めてこのリポジトリで公開されました。このモデルは大文字と小文字を区別せず、つまり "english" と "English" は同じものとして扱われます。

声明: ファネルトランスフォーマーを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードは Hugging Face チームによって作成されました。

✨ 主な機能

ファネルトランスフォーマーは、大量の英語データコーパス上で自己教師付き方式で事前学習されたトランスフォーマーモデルです。これは、このモデルが人為的なテキストのアノテーションなしに、生のテキストのみで事前学習されることを意味します（これが大量の公開データを利用できる理由です）。そして、自動化されたプロセスによってこれらのテキストから入力とラベルが生成されます。

具体的には、小型の言語モデルが入力テキストを破損させ、このモデルの入力生成器として機能します。事前学習の目的は、どのトークンが元のもので、どれが置き換えられたものかを予測することで、GAN のトレーニングに少し似ています。

このようにして、モデルは英語の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付きの文のデータセットがある場合、BERT モデルが生成した特徴を入力として、標準的な分類器をトレーニングすることができます。

🚀 クイックスタート

元のモデルを使用して、与えられたテキストのベクトル表現を抽出することができますが、主に下流タスクでの微調整に使用されます。モデルセンターを参照して、関心のあるタスクに対して微調整されたバージョンを見つけてください。

このモデルは、主に文全体（マスクされている場合もある）を使用して決定を下すタスク、たとえばシーケンス分類、トークン分類、または質問応答などの微調整を目的としています。テキスト生成などのタスクには、GPT2 のようなモデルを検討する必要があります。

💻 使用例

基本的な使用法

以下は、PyTorch でこのモデルを使用して与えられたテキストの特徴を取得する方法です。

from transformers import FunnelTokenizer, FunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = FunnelModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高度な使用法

以下は、TensorFlow でこのモデルを使用して与えられたテキストの特徴を取得する方法です。

from transformers import FunnelTokenizer, TFFunnelModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/small")
model = TFFunnelModel.from_pretrained("funnel-transformer/small")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 ドキュメント

学習データ

このモデルは以下のデータセットで事前学習されています。

BookCorpus：11,038 冊の未出版の書籍を含むデータセット。
英語版ウィキペディア（リスト、表、見出しを除く）。
Clue Web：733,019,372 個の英語のウェブページを含むデータセット。
GigaWord：ニュース通信のテキストデータアーカイブ。
Common Crawl：生のウェブページのデータセット。

引用情報

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}