🚀 LED金融文本摘要模型
本模型是針對金融文本摘要任務微調的LED模型,旨在對財務報告、報表等長金融文檔進行摘要處理。該模型基於LED(Longformer Encoder - Decoder)架構,藉助全局和局部注意力機制,能夠高效處理長文檔。
🚀 快速開始
你可以使用簡單的管道或自定義全局注意力掩碼設置,來開始使用 led-financial_summarization-genai15
模型對長金融文檔進行摘要處理。
💻 使用示例
基礎用法
import torch
from transformers import pipeline
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer = pipeline(
"summarization",
model=hf_name,
tokenizer=hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
result = summarizer(
wall_of_text,
min_length=16,
max_length=256,
no_repeat_ngram_size=3,
encoder_no_repeat_ngram_size=3,
repetition_penalty=2.5,
num_beams=4,
early_stopping=True,
)
print(result[0]["summary_text"])
高級用法(使用全局注意力掩碼)
import torch
from transformers import pipeline,AutoTokenizer, AutoModelForSeq2SeqLM
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer_1 = pipeline(
"summarization",
hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
inputs = tokenizer(
wall_of_text,
return_tensors="pt",
truncation=True,
max_length=8000
)
global_attention_mask = torch.zeros(inputs["input_ids"].shape, dtype=torch.long)
global_attention_mask[:, 0] = 1
global_attention_mask[:, -1] = 1
model_1 = AutoModelForSeq2SeqLM.from_pretrained(hf_name).to(device)
summary_ids_1 = model_1.generate(
inputs["input_ids"].to(device),
attention_mask=inputs["attention_mask"].to(device),
global_attention_mask=global_attention_mask.to(device),
max_length=256,
min_length=16,
num_beams=4,
repetition_penalty=2.5,
no_repeat_ngram_size=3,
early_stopping=True
)
result_globalmask_pretrained = tokenizer.decode(summary_ids_1[0], skip_special_tokens=True)
result_globalmask_pretrained
✨ 主要特性
- 該模型基於LED架構,能有效處理長金融文檔(輸入最多支持8000個標記),同時保持關鍵內容和連貫性。
- 模型在處理金融文本摘要任務時,在各項ROUGE指標上均優於基於BART的模型和基礎LED模型,能更好地捕捉金融文檔上下文信息,生成連貫且信息豐富的摘要。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
📚 詳細文檔
模型詳情
模型描述
fahil2631/led-financial_summarization-genai15
又名 LED-FINAL-GENAI15
,是 pszemraj/led-large-book-summary
模型的微調版本,適用於金融摘要任務。它由來自 華威商學院(2024/2025) 的 GEN AI GROUP 15(Fakhri、Amaan、Aisyah、Aditya、Jerry、Mewmew、Ridhi、Chinmay) 開發。
該模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization
數據集上進行訓練,該數據集包含來自EDGAR(1993 - 2020)的10 - K文件等長篇金融文本。摘要主要由ChatGPT生成(佔比70%),以確保風格和格式的一致性。
屬性 |
詳情 |
模型類型 |
基於LED架構的金融文本摘要模型 |
訓練數據 |
kritsadaK/EDGAR-CORPUS-Financial-Summarization 數據集,包含1993 - 2020年美國上市公司提交給美國證券交易委員會的財務報告(主要是10 - K文件) |
開發團隊 |
GenAI Group 15 2024/2025,華威商學院 |
微調基礎模型 |
pszemraj/led-large-book-summary |
任務類型 |
抽象摘要(金融領域) |
語言 |
英語 |
模型來源
預期用途
該模型專為需要對長金融文檔進行摘要的任務而設計,具體用例包括:
- 對季度和年度財務報告進行摘要。
- 為財務文件生成執行摘要。
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。如需進一步建議,還需更多信息。
訓練詳情
訓練數據
該模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization
數據集的過濾子集上進行訓練,該數據集包含1993年至2020年間美國上市公司提交給美國證券交易委員會的財務報告(主要是10 - K文件)。
每個文檔都配有由大語言模型(ChatGPT或Claude)生成的抽象摘要。為確保一致性和風格統一,僅保留 ChatGPT生成的摘要(約佔數據集的70%)用於訓練。數據集使用基於哈希文檔ID的分組拆分方法劃分為訓練集、驗證集和測試集,以防止內容洩露。
- 使用的總樣本數:6664(僅ChatGPT生成的樣本)
- 輸入字段:
input
(原始金融文檔)、summary
(目標文本)、model
(摘要生成器)
- 過濾標準:
model == "ChatGPT"
這種預處理方式確保了摘要格式更加一致,提高了訓練的收斂性。
訓練過程
- 微調數據集:EDGAR - CORPUS - Financial - Summarization
- 訓練批次大小:1(採用梯度累積)
- 訓練輪數:3
- 優化器:採用8位精度的AdamW
- 學習率:3e - 5
- 評估頻率:每500步進行一次評估
- 檢查點保存頻率:每1000步保存一次
- 使用的GPU:NVIDIA L4 GPU
訓練超參數
- 訓練機制:FP16混合精度
- 批次大小:1(梯度累積步數 = 2,有效批次大小 = 2)
- 學習率:3e - 5
- 訓練輪數:3
- 優化器:AdamW(通過
bitsandbytes
實現8位精度)
- 評估步數:每500步
- 檢查點保存:每1000步
- 最大輸入長度:8000個標記
- 最大目標長度:256個標記
- 束搜索:4束
- 重複懲罰:2.5
- 無重複n - 元語法大小:3
- 全局注意力掩碼:在第一個標記上啟用
速度、大小和時間
- 使用的GPU:NVIDIA L4
- 訓練運行時間:每1000步約2.5小時(總共7995步)
- 訓練吞吐量:約1.68個樣本/秒
- 檢查點大小:約1.84 GB(
.safetensors
)
- 保存的模型大小:約1.84 GB
評估
評估指標
該模型使用標準的ROUGE指標進行評估:
- ROUGE - 1:衡量系統摘要和參考摘要之間單個單詞(一元語法)的重疊程度。
- ROUGE - 2:衡量兩個連續單詞(二元語法)的重疊程度。
- ROUGE - L:衡量系統摘要和參考摘要之間的最長公共子序列。
- ROUGE - Lsum:ROUGE - L的多句子摘要變體。
評估結果
在從測試集中隨機選擇的20個樣本上獲得了以下結果:
模型 |
ROUGE - 1 |
ROUGE - 2 |
ROUGE - L |
ROUGE - Lsum |
led - financial_summarization - genai15 |
0.5121 |
0.2089 |
0.2987 |
0.4359 |
BART - financial - summarization |
0.4574 |
0.1976 |
0.2728 |
0.3876 |
LED - large - book - summary |
0.3066 |
0.0470 |
0.1391 |
0.2128 |
總結
led - financial_summarization - genai15
在所有ROUGE指標上均優於基於BART的模型和基礎LED模型,這表明它在從長文檔中捕捉金融上下文信息並生成連貫且信息豐富的摘要方面具有有效性。
🔧 技術細節
文檔未提供具體的技術實現細節,故跳過該章節。
📄 許可證
文檔未提及許可證信息,故跳過該章節。