intermediate-baseオープンソースモデル - 無料で利用可能。英語の文章要約タスクを強力にサポートします。

ホーム

Intermediate Base

funnel-transformerによって開発

英語コーパスで事前学習されたTransformerモデルで、ELECTRAのような自己教師あり方式で訓練されており、文の要約が必要なタスクに適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #英語テキスト要約 #ELECTRA式事前学習 #シーケンス分類最適化

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

ファンネルトランスフォーマーは、大規模な英語コーパスで自己教師あり方式で事前学習されたTransformerモデルで、主に下流タスクの微調整に使用するためのテキスト特徴を抽出するために使用されます。

モデル特徴

自己教師あり事前学習

ELECTRAのような自己教師あり方式で訓練されており、人手による注釈データが不要です

効率的なシーケンス処理

出力される隠れ状態シーケンスの長さは入力の4分の1で、文の要約が必要なタスクに適しています

大文字小文字の区別なし

モデルは大文字と小文字を区別せず、'english'と'English'は同じと見なされます

モデル能力

テキスト特徴抽出

文分類

シーケンス分類

トークン分類

質問応答タスク

使用事例

自然言語処理

文分類

モデルが抽出した特徴を入力として標準分類器を訓練する

質問応答システム

モデルが抽出したテキスト特徴を利用して質問応答システムを構築する

🚀 ファネルトランスフォーマー中間モデル (デコーダーなしのB6 - 6 - 6)

このモデルは、ELECTRA と同様の目的で英語で事前学習されたモデルです。このモデルはこの論文で紹介され、最初はこのリポジトリで公開されました。このモデルは大文字と小文字を区別しません。つまり、"english" と "English" を区別しません。

免責事項: ファネルトランスフォーマーを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

ファネルトランスフォーマーは、自己教師付き学習方式で大量の英語データセットで事前学習されたトランスフォーマーモデルです。これは、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して事前学習されています（このため、大量の公開データを使用することができます）。具体的には、自動化されたプロセスによってそれらのテキストから入力とラベルを生成します。

より正確には、小さな言語モデルが入力テキストを破損させ、このモデルの入力の生成器として機能します。事前学習の目的は、どのトークンが元のもので、どれが置き換えられたものかを予測することで、GANのトレーニングに少し似ています。

このようにして、モデルは英語の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用することができます。たとえば、ラベル付きの文のデータセットがある場合、BERTモデルが生成する特徴を入力として使用して、標準的な分類器をトレーニングすることができます。

注意: このモデルにはデコーダーが含まれていないため、出力される隠れ状態のシーケンス長は入力の4分の1になります。文の要約が必要なタスク（文分類など）には適していますが、元の各トークンに対応する入力が必要な場合は適していません。その場合は intermediate モデルを使用する必要があります。

使用目的と制限

生のモデルを使用して、与えられたテキストのベクトル表現を抽出することができますが、主に下流のタスクでファインチューニングすることを目的としています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

このモデルは、主に文全体（潜在的にマスクされたもの）を使用して決定を行うタスクでファインチューニングすることを目的としています。例えば、シーケンス分類、トークン分類、質問応答などです。テキスト生成などのタスクには、GPT2のようなモデルを使用する必要があります。

トレーニングデータ

このモデルは以下のデータセットで事前学習されています。

BookCorpus：11,038冊の未公開の書籍からなるデータセット
英語版ウィキペディア（リスト、表、ヘッダーを除く）
Clue Web：733,019,372ページの英語のウェブページからなるデータセット
GigaWord：ニュースワイヤーのテキストデータのアーカイブ
Common Crawl：生のウェブページのデータセット

BibTeXエントリと引用情報

@misc{dai2020funneltransformer,
    title={Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing},
    author={Zihang Dai and Guokun Lai and Yiming Yang and Quoc V. Le},
    year={2020},
    eprint={2006.03236},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

💻 使用例

基本的な使用法

以下は、このモデルを使用して与えられたテキストの特徴を抽出するPyTorchのコード例です。

from transformers import FunnelTokenizer, FunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = FunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

以下はTensorFlowでのコード例です。

from transformers import FunnelTokenizer, TFFunnelBaseModel
tokenizer = FunnelTokenizer.from_pretrained("funnel-transformer/intermediate-base")
model = TFFunnelBaseModel.from_pretrained("funnel-transformer/intermediate-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)