flan - t5 - 11b - summarizer - filteredオープンソース要約生成器

ホーム

Flan T5 11b Summarizer Filtered

jordicliveによって開発

これはgoogle/flan-t5-xxlモデルを複数の要約データセットでファインチューニングしたバージョンで、学術と汎用シナリオに適した多機能要約ジェネレーターを目指しています。

テキスト生成

Transformers

英語オープンソースライセンス:Bsd-3-clause #マルチプロンプト要約 #調整可能な長さの要約 #マルチデータセットファインチューニング

ダウンロード数 492

リリース時間 : 2/7/2023

モデル概要

このモデルは複数の要約データセット（xsum、wikihow、cnn_dailymail/3.0.0など）でファインチューニングされており、異なるプロンプトに応じて異なるタイプの要約を生成できます。トレーニングデータの70%は品質向上のためcontrieverでフィルタリングされています。

モデル特徴

多機能要約生成

プロンプトを変更することで異なるタイプの要約（ソーシャル要約、10語要約、5語要約など）を生成可能

マルチデータセットトレーニング

複数の高品質要約データセットでファインチューニングされており、モデルの汎化能力が向上

データフィルタリング

トレーニングデータの70%をcontrieverでフィルタリングし、トレーニングデータの品質を向上

モデル能力

テキスト要約

長さ制御可能な要約生成

マルチタイプ要約生成

使用事例

コンテンツ要約

ニュース要約

ニュース記事の簡潔な要約を生成

要求に応じて異なる長さのニュース要約を生成可能

学術論文要約

学術論文の技術的要約を生成

論文のキー情報を捕捉し専門的な要約を生成可能

ソーシャルメディアコンテンツ要約

ソーシャルメディア投稿の短い要約を生成

ソーシャルメディア向けの短い要約を生成可能

🚀 マルチパーパス要約モデル (複数の要約データセットでファインチューニングされた11Bのgoogle/flan - t5 - xxl)

このモデルは、学術や一般的な用途での汎用要約器として使用できます。ソースドキュメントに先頭に付ける指示を変えることで、要約の種類を制御できます。最大ソース長が512トークン、最大要約長が150トークンで学習されていますが、多くのテキストに対して良好な結果を示します。

[google/flan - t5 - xxl](https://huggingface.co/google/flan - t5 - xxl) を様々な要約データセット (xsum、wikihow、cnn_dailymail/3.0.0、samsum、scitldr/AIC、billsum、TLDR、wikipedia - summary) でファインチューニングしたバージョンです。

70%のデータは、contriever を使用して、テキストと要約のコサイン類似度が0.6を閾値としてフィルタリングされています。

✨ 主な機能

学術や一般的な用途での汎用要約器として使用可能。
ソースドキュメントに付ける指示を変えることで、要約の種類を制御できる。
多くのテキストに対して良好な要約結果を示す。

📦 インストール

pip install transformers を実行して、必要なライブラリをインストールします。

💻 使用例

基本的な使用法

モデルの使用方法については、Colabノートブックを確認してください。モデルは要約の種類を示すプロンプトをソースドキュメントの前に付けることを期待しています。このモデルは、膨大な種類 (100種類以上) のプロンプトで学習されています。

example_prompts = {
    "social": "Produce a short summary of the following social media post:",
    "ten": "Summarize the following article in 10-20 words:",
    "5": "Summarize the following article in 0-5 words:",
    "100": "Summarize the following article in about 100 words:",
    "summary": "Write a ~ 100 word summary of the following text:",
    "short": "Provide a short summary of the following article:",
}

モデルは、要約の長さを「x - y words」または「~/approximately/about/ x words」といった範囲で指定することも学習しています。プロンプトは末尾にコロンを付けて、モデルへの入力を「Summarize the following: \n\n {input_text}」のようにフォーマットする必要があります。

pip install transformers を実行した後、以下のコードを実行します。このパイプラインはColabよりも遅く動作し、一部のトークン化パラメータを持たない場合があります。

from transformers import pipeline

summarizer = pipeline("summarization", "jordiclive/flan-t5-11b-summarizer-filtered", torch_dtype=torch.bfloat16)

raw_document = 'You must be 18 years old to live or work in New York State...'
prompt = "Summarize the following article in 10-20 words:"
results = summarizer(
        f"{prompt} \n\n {raw_document}",
        num_beams=5,
        min_length=5,
        no_repeat_ngram_size=3,
        truncation=True,
        max_length=512,
    )

🔧 技術詳細

学習手順

学習はBF16、deepspeed stage 2、CPUオフロードで1エポック行われ、検証損失が監視されました。

ハードウェア

GPU数: 8 NVIDIA A100 - SXM4 - 80GB
CPU数: 48

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
learning_rate	3e - 05
train_batch_size	4
eval_batch_size	4
seed	42
distributed_type	multi - GPU
gradient_accumulation_steps	2
effective_train_batch_size	64
optimizer	Adam (betas=(0.9, 0.999), epsilon = 1e - 08)
lr_scheduler_type	linear
warmup_steps	2000
num_epochs	4