led-financial_summarization-genai15開源模型 - 免費助力金融文本快速摘要生成

首頁

Led Financial Summarization Genai15

由fahil2631開發

專為金融文本摘要任務微調的LED模型，基於pszemraj/led-large-book-summary，由華威商學院GEN AI GROUP 15團隊開發

文本生成

Safetensors

其他#金融文檔摘要 #長文本處理 #ChatGPT風格摘要

下載量 15

發布時間 : 5/7/2025

模型概述

用於總結財報和報表等長篇金融文檔的抽象摘要模型，能處理長達8000token的金融文檔並保持核心內容連貫性

模型特點

長文檔處理能力

通過全局與局部注意力機制高效處理長達8000token的金融文檔

金融領域優化

在EDGAR-CORPUS金融數據集上微調，專門針對財報、10-K文件等金融文檔

高質量摘要生成

使用ChatGPT生成的高質量摘要作為訓練目標，確保摘要風格統一且信息豐富

模型能力

金融文本摘要

長文檔處理

抽象摘要生成

使用案例

財務報告處理

年度財務報告摘要

自動生成10-K年度報告的簡明執行摘要

ROUGE-1得分0.5121，顯著優於通用摘要模型

季度財報濃縮

從冗長的季度財報中提取關鍵財務指標和業務進展

金融監管申報

EDGAR文件摘要

為美國SEC EDGAR系統中的申報文件生成監管摘要

🚀 LED金融文本摘要模型

本模型是針對金融文本摘要任務微調的LED模型，旨在對財務報告、報表等長金融文檔進行摘要處理。該模型基於LED（Longformer Encoder - Decoder）架構，藉助全局和局部注意力機制，能夠高效處理長文檔。

🚀 快速開始

你可以使用簡單的管道或自定義全局注意力掩碼設置，來開始使用 led-financial_summarization-genai15 模型對長金融文檔進行摘要處理。

💻 使用示例

基礎用法

import torch
from transformers import pipeline

hf_name = 'fahil2631/led-financial_summarization-genai15'

summarizer = pipeline(
    "summarization",
    model=hf_name,
    tokenizer=hf_name,
    device=0 if torch.cuda.is_available() else -1,
)

wall_of_text = """Your long financial text goes here."""

result = summarizer(
    wall_of_text,
    min_length=16,
    max_length=256,
    no_repeat_ngram_size=3,
    encoder_no_repeat_ngram_size=3,
    repetition_penalty=2.5,
    num_beams=4,
    early_stopping=True,
)

print(result[0]["summary_text"])

高級用法（使用全局注意力掩碼）

import torch
from transformers import pipeline,AutoTokenizer, AutoModelForSeq2SeqLM

hf_name = 'fahil2631/led-financial_summarization-genai15'

summarizer_1 = pipeline(
    "summarization",
    hf_name,
    device=0 if torch.cuda.is_available() else -1,
)

wall_of_text = """Your long financial text goes here."""


# Input tokenization
inputs = tokenizer(
    wall_of_text,
    return_tensors="pt",
    truncation=True,
    max_length=8000
)

# Mglobal attention mask
global_attention_mask = torch.zeros(inputs["input_ids"].shape, dtype=torch.long)

# Set first and last token to get the global attention
global_attention_mask[:, 0] = 1
global_attention_mask[:, -1] = 1

#Generate summary
model_1 = AutoModelForSeq2SeqLM.from_pretrained(hf_name).to(device)  # Move the model to the same device as input

summary_ids_1 = model_1.generate(
    inputs["input_ids"].to(device),  # Move input to the same device
    attention_mask=inputs["attention_mask"].to(device),  # Move attention mask to the same device
    global_attention_mask=global_attention_mask.to(device),  # Move global attention mask to the same device
    max_length=256,
    min_length=16,
    num_beams=4,
    repetition_penalty=2.5,
    no_repeat_ngram_size=3,
    early_stopping=True
)

#Decode the summary result
result_globalmask_pretrained = tokenizer.decode(summary_ids_1[0], skip_special_tokens=True)
result_globalmask_pretrained

✨ 主要特性

該模型基於LED架構，能有效處理長金融文檔（輸入最多支持8000個標記），同時保持關鍵內容和連貫性。
模型在處理金融文本摘要任務時，在各項ROUGE指標上均優於基於BART的模型和基礎LED模型，能更好地捕捉金融文檔上下文信息，生成連貫且信息豐富的摘要。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

📚 詳細文檔

模型詳情

模型描述

fahil2631/led-financial_summarization-genai15 又名 LED-FINAL-GENAI15，是 pszemraj/led-large-book-summary 模型的微調版本，適用於金融摘要任務。它由來自 華威商學院（2024/2025） 的 GEN AI GROUP 15（Fakhri、Amaan、Aisyah、Aditya、Jerry、Mewmew、Ridhi、Chinmay） 開發。

該模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization 數據集上進行訓練，該數據集包含來自EDGAR（1993 - 2020）的10 - K文件等長篇金融文本。摘要主要由ChatGPT生成（佔比70%），以確保風格和格式的一致性。

屬性	詳情
模型類型	基於LED架構的金融文本摘要模型
訓練數據	`kritsadaK/EDGAR-CORPUS-Financial-Summarization` 數據集，包含1993 - 2020年美國上市公司提交給美國證券交易委員會的財務報告（主要是10 - K文件）
開發團隊	GenAI Group 15 2024/2025，華威商學院
微調基礎模型	pszemraj/led-large-book-summary
任務類型	抽象摘要（金融領域）
語言	英語

模型來源

預期用途

該模型專為需要對長金融文檔進行摘要的任務而設計，具體用例包括：

對季度和年度財務報告進行摘要。
為財務文件生成執行摘要。

用戶（直接用戶和下游用戶）應瞭解該模型的風險、偏差和侷限性。如需進一步建議，還需更多信息。

訓練詳情

訓練數據

該模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization 數據集的過濾子集上進行訓練，該數據集包含1993年至2020年間美國上市公司提交給美國證券交易委員會的財務報告（主要是10 - K文件）。

每個文檔都配有由大語言模型（ChatGPT或Claude）生成的抽象摘要。為確保一致性和風格統一，僅保留 ChatGPT生成的摘要（約佔數據集的70%）用於訓練。數據集使用基於哈希文檔ID的分組拆分方法劃分為訓練集、驗證集和測試集，以防止內容洩露。

使用的總樣本數：6664（僅ChatGPT生成的樣本）
- 訓練集：5331
- 驗證集：666
- 測試集：667
輸入字段：input（原始金融文檔）、summary（目標文本）、model（摘要生成器）
過濾標準：model == "ChatGPT"

這種預處理方式確保了摘要格式更加一致，提高了訓練的收斂性。

訓練過程

微調數據集：EDGAR - CORPUS - Financial - Summarization
訓練批次大小：1（採用梯度累積）
訓練輪數：3
優化器：採用8位精度的AdamW
學習率：3e - 5
評估頻率：每500步進行一次評估
檢查點保存頻率：每1000步保存一次
使用的GPU：NVIDIA L4 GPU

訓練超參數

訓練機制：FP16混合精度
批次大小：1（梯度累積步數 = 2，有效批次大小 = 2）
學習率：3e - 5
訓練輪數：3
優化器：AdamW（通過 bitsandbytes 實現8位精度）
評估步數：每500步
檢查點保存：每1000步
最大輸入長度：8000個標記
最大目標長度：256個標記
束搜索：4束
重複懲罰：2.5
無重複n - 元語法大小：3
全局注意力掩碼：在第一個標記上啟用

速度、大小和時間

使用的GPU：NVIDIA L4
訓練運行時間：每1000步約2.5小時（總共7995步）
訓練吞吐量：約1.68個樣本/秒
檢查點大小：約1.84 GB（.safetensors）
保存的模型大小：約1.84 GB

評估

評估指標

該模型使用標準的ROUGE指標進行評估：

ROUGE - 1：衡量系統摘要和參考摘要之間單個單詞（一元語法）的重疊程度。
ROUGE - 2：衡量兩個連續單詞（二元語法）的重疊程度。
ROUGE - L：衡量系統摘要和參考摘要之間的最長公共子序列。
ROUGE - Lsum：ROUGE - L的多句子摘要變體。

評估結果

在從測試集中隨機選擇的20個樣本上獲得了以下結果：

模型	ROUGE - 1	ROUGE - 2	ROUGE - L	ROUGE - Lsum
led - financial_summarization - genai15	0.5121	0.2089	0.2987	0.4359
BART - financial - summarization	0.4574	0.1976	0.2728	0.3876
LED - large - book - summary	0.3066	0.0470	0.1391	0.2128