medium - baseオープンソースTransformerモデル - 英語コーパスに基づき、トークン予測を用いた補助トレーニングが可能

ホーム

Medium Base

funnel-transformerによって開発

英語コーパスで事前学習されたTransformerモデルで、ELECTRAに似た自己教師あり学習方式を採用し、置換されたトークンを予測することで訓練されます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #テキスト特徴抽出 #効率的なシーケンス処理 #英語事前学習

ダウンロード数 69

リリース時間 : 3/2/2022

モデル概要

このモデルは自己教師あり学習により大量の英語テキストで事前学習されており、テキスト特徴の抽出や下流タスクのファインチューニングに適しており、特に文の要約が必要なタスクに最適です。

モデル特徴

効率的なシーケンス処理

漏斗型構造でシーケンス長を圧縮し、出力は入力長の4分の1となり、処理効率が向上します。

自己教師あり事前学習

ELECTRAに似た敵対的訓練方式を採用し、置換されたトークンを予測することで言語表現を学習します。

大文字小文字の区別なし

大文字小文字が異なる同じ単語を同一トークンとして扱い、テキスト処理を簡素化します。

モデル能力

テキスト特徴抽出

シーケンス分類

トークン分類

質問応答システム

使用事例

テキスト分析

感情分析

文や段落の感情傾向を分類します

テキスト分類

テキストを事前定義されたカテゴリに分類します

情報抽出

固有表現認識

テキスト中の人名、地名、組織名などのエンティティを認識します

🚀 Funnel Transformerミディアムモデル (B6-3x2-3x2 デコーダーなし)

ELECTRAと同様の目的で英語で事前学習されたモデルです。このモデルは、この論文で紹介され、このリポジトリで最初に公開されました。このモデルは大文字小文字を区別しません。つまり、englishとEnglishは同じとみなされます。

免責事項: Funnel Transformerを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

Funnel Transformerは、自己教師付き学習方式で大量の英語データコーパスで事前学習されたトランスフォーマーモデルです。つまり、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して事前学習されています（このため、大量の公開データを利用できます）。そして、それらのテキストから入力とラベルを自動的に生成するプロセスが行われます。

より正確には、小さな言語モデルが入力テキストを破損させ、このモデルの入力の生成器として機能します。事前学習の目的は、どのトークンが元のもので、どれが置き換えられたものかを予測することで、GANのトレーニングに少し似ています。

このようにして、モデルは英語の内部表現を学習し、下流のタスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付けされた文のデータセットがある場合、BERTモデルが生成する特徴を入力として使用して、標準的な分類器をトレーニングすることができます。

注意: このモデルにはデコーダーが含まれていないため、出力される隠れ状態のシーケンス長は入力の4分の1になります。文の要約が必要なタスク（文分類など）には適していますが、元の各トークンに対して1つの入力が必要な場合は適していません。その場合はmediumモデルを使用する必要があります。

想定される用途と制限

生のモデルを使用して、与えられたテキストのベクトル表現を抽出することもできますが、主に下流のタスクでファインチューニングすることを想定しています。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

このモデルは、主に文全体（場合によってはマスクされたもの）を使用して決定を行うタスクでファインチューニングすることを目的としています。たとえば、シーケンス分類、トークン分類、質問応答などです。テキスト生成などのタスクには、GPT2のようなモデルを使用する必要があります。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

# PyTorchでの使用例
from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/medium-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/medium-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高度な使用法

# TensorFlowでの使用例
from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/medium-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/medium-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 ドキュメント

トレーニングデータ

このモデルは以下のデータセットで事前学習されています。

BookCorpus：11,038冊の未公開の本からなるデータセット
英語版Wikipedia（リスト、テーブル、ヘッダーを除く）
Clue Web：733,019,372ページの英語のウェブページからなるデータセット
GigaWord：ニュースワイヤーのテキストデータのアーカイブ
Common Crawl：生のウェブページのデータセット

BibTeXエントリと引用情報

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}