🚀 LED-FINAL-GENAI15
金融文書の要約に特化したLEDモデルで、レポートや決算書などの長文の金融ドキュメントを効率的に要約します。
🚀 クイックスタート
このモデルは、長文の金融文書の要約が必要なタスクに最適です。以下に、モデルの使い方を紹介します。
基本的な使用法
import torch
from transformers import pipeline
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer = pipeline(
"summarization",
model=hf_name,
tokenizer=hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
result = summarizer(
wall_of_text,
min_length=16,
max_length=256,
no_repeat_ngram_size=3,
encoder_no_repeat_ngram_size=3,
repetition_penalty=2.5,
num_beams=4,
early_stopping=True,
)
print(result[0]["summary_text"])
グローバルアテンションマスクを使用する場合
import torch
from transformers import pipeline,AutoTokenizer, AutoModelForSeq2SeqLM
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer_1 = pipeline(
"summarization",
hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
inputs = tokenizer(
wall_of_text,
return_tensors="pt",
truncation=True,
max_length=8000
)
global_attention_mask = torch.zeros(inputs["input_ids"].shape, dtype=torch.long)
global_attention_mask[:, 0] = 1
global_attention_mask[:, -1] = 1
model_1 = AutoModelForSeq2SeqLM.from_pretrained(hf_name).to(device)
summary_ids_1 = model_1.generate(
inputs["input_ids"].to(device),
attention_mask=inputs["attention_mask"].to(device),
global_attention_mask=global_attention_mask.to(device),
max_length=256,
min_length=16,
num_beams=4,
repetition_penalty=2.5,
no_repeat_ngram_size=3,
early_stopping=True
)
result_globalmask_pretrained = tokenizer.decode(summary_ids_1[0], skip_special_tokens=True)
result_globalmask_pretrained
✨ 主な機能
- 長文の金融文書(最大8000トークンの入力)を正確に要約し、重要な内容と一貫性を維持します。
- 標準的なROUGEメトリクスで評価され、BARTベースおよびベースLEDモデルを上回る性能を発揮します。
📦 インストール
このモデルはHugging Faceのtransformers
ライブラリを使用して利用できます。以下のコードでインストールできます。
pip install transformers
📚 ドキュメント
モデルの詳細
モデルの説明
fahil2631/led-financial_summarization-genai15
(別名 LED-FINAL-GENAI15
)は、pszemraj/led-large-book-summary
モデルを金融要約タスクに適合するように微調整したものです。このモデルは、Warwick Business School (2024/2025) の GEN AI GROUP 15 (Fakhri, Amaan, Aisyah, Aditya, Jerry, Mewmew, Ridhi, Chinmay) によって開発されました。
モデルは、kritsadaK/EDGAR-CORPUS-Financial-Summarization
データセットで学習されました。このデータセットには、1993年から2020年までのEDGARの10-Kファイリングなどの長文の金融テキストが含まれています。要約は主にChatGPT(約70%)によって生成され、スタイルと形式の一貫性が保たれています。
属性 |
详情 |
開発者 |
GenAI Group 15 2024/2025, Warwick Business School |
微調整元のモデル |
pszemraj/led-large-book-summary |
タスク |
抽象的要約(金融ドメイン) |
言語 |
英語 |
モデルのソース
想定される用途
このモデルは、長文の金融文書の要約が必要なタスクに設計されています。具体的なユースケースは以下の通りです。
- 四半期および年次財務報告の要約
- 金融ファイリングのエグゼクティブサマリーの生成
学習の詳細
学習データ
モデルは、kritsadaK/EDGAR-CORPUS-Financial-Summarization
データセットのフィルタリングされたサブセットで学習されました。このデータセットには、1993年から2020年までに米国証券取引委員会(SEC)に提出された金融報告(主に10-Kファイリング)が含まれています。
各文書は、大規模言語モデル(ChatGPTまたはClaude)によって生成された抽象的要約とペアになっています。一貫性とスタイルの整合性を確保するために、学習にはChatGPTによって生成された要約(データセットの約70%)のみが使用されました。データセットは、ハッシュ化された文書IDに基づくグループベースの分割を使用して、学習/検証/テストセットに分割され、内容の漏洩を防ぎました。
- 使用された総サンプル数: 6,664(ChatGPTのみ)
- 学習セット: 5,331
- 検証セット: 666
- テストセット: 667
- 入力フィールド:
input
(元の金融文書)、summary
(目標テキスト)、model
(要約生成器)
- フィルタリング基準:
model == "ChatGPT"
この前処理により、より一貫した要約形式が確保され、学習の収束が改善されました。
学習手順
- 微調整データセット: EDGAR-CORPUS-Financial-Summarization
- 学習バッチサイズ: 1(勾配累積あり)
- 学習エポック数: 3
- オプティマイザ: 8ビット精度のAdamW
- 学習率: 3e-5
- 評価: 500ステップごと
- チェックポイント保存: 1000ステップごと
- GPU: NVIDIA L4 GPU
学習ハイパーパラメータ
- 学習方式: FP16混合精度
- バッチサイズ: 1(勾配累積ステップ = 2、有効バッチサイズ = 2)
- 学習率: 3e-5
- エポック数: 3
- オプティマイザ: AdamW(
bitsandbytes
を介した8ビット)
- 評価ステップ: 500ステップごと
- チェックポイント保存: 1000ステップごと
- 最大入力長: 8000トークン
- 最大目標長: 256トークン
- ビームサーチ: 4ビーム
- 繰り返しペナルティ: 2.5
- 繰り返し禁止n-gramサイズ: 3
- グローバルアテンションマスク: 最初のトークンで有効
速度、サイズ、時間
- 使用されたGPU: NVIDIA L4
- 学習実行時間: 1000ステップあたり約2.5時間(合計7995ステップ)
- 学習スループット: 約1.68サンプル/秒
- チェックポイントサイズ: 約1.84 GB(
.safetensors
)
- 保存されたモデルサイズ: 約1.84 GB
評価
メトリクス
モデルは、標準的なROUGEメトリクスを使用して評価されました。
- ROUGE-1: システム要約と参照要約間のユニグラム(個々の単語)の重複を測定します。
- ROUGE-2: バイグラム(連続する2つの単語)の重複を測定します。
- ROUGE-L: システム要約と参照要約間の最長共通部分列を測定します。
- ROUGE-Lsum: 複数文要約用のROUGE-Lのバリエーションです。
評価結果
テストセットからランダムに選択された20サンプルのセットで以下の結果が得られました。
モデル |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
ROUGE-Lsum |
led-financial_summarization-genai15 |
0.5121 |
0.2089 |
0.2987 |
0.4359 |
BART-financial-summarization |
0.4574 |
0.1976 |
0.2728 |
0.3876 |
LED-large-book-summary |
0.3066 |
0.0470 |
0.1391 |
0.2128 |
まとめ
led-financial_summarization-genai15
は、すべてのROUGEメトリクスでBARTベースおよびベースLEDモデルを上回っています。これは、長文の金融文書から金融コンテキストを捉え、一貫性があり情報量の多い要約を生成する際のモデルの有効性を示しています。