🚀 LED金融文本摘要模型
本模型是针对金融文本摘要任务微调的LED模型,旨在对财务报告、报表等长金融文档进行摘要处理。该模型基于LED(Longformer Encoder - Decoder)架构,借助全局和局部注意力机制,能够高效处理长文档。
🚀 快速开始
你可以使用简单的管道或自定义全局注意力掩码设置,来开始使用 led-financial_summarization-genai15
模型对长金融文档进行摘要处理。
💻 使用示例
基础用法
import torch
from transformers import pipeline
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer = pipeline(
"summarization",
model=hf_name,
tokenizer=hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
result = summarizer(
wall_of_text,
min_length=16,
max_length=256,
no_repeat_ngram_size=3,
encoder_no_repeat_ngram_size=3,
repetition_penalty=2.5,
num_beams=4,
early_stopping=True,
)
print(result[0]["summary_text"])
高级用法(使用全局注意力掩码)
import torch
from transformers import pipeline,AutoTokenizer, AutoModelForSeq2SeqLM
hf_name = 'fahil2631/led-financial_summarization-genai15'
summarizer_1 = pipeline(
"summarization",
hf_name,
device=0 if torch.cuda.is_available() else -1,
)
wall_of_text = """Your long financial text goes here."""
inputs = tokenizer(
wall_of_text,
return_tensors="pt",
truncation=True,
max_length=8000
)
global_attention_mask = torch.zeros(inputs["input_ids"].shape, dtype=torch.long)
global_attention_mask[:, 0] = 1
global_attention_mask[:, -1] = 1
model_1 = AutoModelForSeq2SeqLM.from_pretrained(hf_name).to(device)
summary_ids_1 = model_1.generate(
inputs["input_ids"].to(device),
attention_mask=inputs["attention_mask"].to(device),
global_attention_mask=global_attention_mask.to(device),
max_length=256,
min_length=16,
num_beams=4,
repetition_penalty=2.5,
no_repeat_ngram_size=3,
early_stopping=True
)
result_globalmask_pretrained = tokenizer.decode(summary_ids_1[0], skip_special_tokens=True)
result_globalmask_pretrained
✨ 主要特性
- 该模型基于LED架构,能有效处理长金融文档(输入最多支持8000个标记),同时保持关键内容和连贯性。
- 模型在处理金融文本摘要任务时,在各项ROUGE指标上均优于基于BART的模型和基础LED模型,能更好地捕捉金融文档上下文信息,生成连贯且信息丰富的摘要。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
📚 详细文档
模型详情
模型描述
fahil2631/led-financial_summarization-genai15
又名 LED-FINAL-GENAI15
,是 pszemraj/led-large-book-summary
模型的微调版本,适用于金融摘要任务。它由来自 华威商学院(2024/2025) 的 GEN AI GROUP 15(Fakhri、Amaan、Aisyah、Aditya、Jerry、Mewmew、Ridhi、Chinmay) 开发。
该模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization
数据集上进行训练,该数据集包含来自EDGAR(1993 - 2020)的10 - K文件等长篇金融文本。摘要主要由ChatGPT生成(占比70%),以确保风格和格式的一致性。
属性 |
详情 |
模型类型 |
基于LED架构的金融文本摘要模型 |
训练数据 |
kritsadaK/EDGAR-CORPUS-Financial-Summarization 数据集,包含1993 - 2020年美国上市公司提交给美国证券交易委员会的财务报告(主要是10 - K文件) |
开发团队 |
GenAI Group 15 2024/2025,华威商学院 |
微调基础模型 |
pszemraj/led-large-book-summary |
任务类型 |
抽象摘要(金融领域) |
语言 |
英语 |
模型来源
预期用途
该模型专为需要对长金融文档进行摘要的任务而设计,具体用例包括:
- 对季度和年度财务报告进行摘要。
- 为财务文件生成执行摘要。
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。如需进一步建议,还需更多信息。
训练详情
训练数据
该模型在 kritsadaK/EDGAR-CORPUS-Financial-Summarization
数据集的过滤子集上进行训练,该数据集包含1993年至2020年间美国上市公司提交给美国证券交易委员会的财务报告(主要是10 - K文件)。
每个文档都配有由大语言模型(ChatGPT或Claude)生成的抽象摘要。为确保一致性和风格统一,仅保留 ChatGPT生成的摘要(约占数据集的70%)用于训练。数据集使用基于哈希文档ID的分组拆分方法划分为训练集、验证集和测试集,以防止内容泄露。
- 使用的总样本数:6664(仅ChatGPT生成的样本)
- 输入字段:
input
(原始金融文档)、summary
(目标文本)、model
(摘要生成器)
- 过滤标准:
model == "ChatGPT"
这种预处理方式确保了摘要格式更加一致,提高了训练的收敛性。
训练过程
- 微调数据集:EDGAR - CORPUS - Financial - Summarization
- 训练批次大小:1(采用梯度累积)
- 训练轮数:3
- 优化器:采用8位精度的AdamW
- 学习率:3e - 5
- 评估频率:每500步进行一次评估
- 检查点保存频率:每1000步保存一次
- 使用的GPU:NVIDIA L4 GPU
训练超参数
- 训练机制:FP16混合精度
- 批次大小:1(梯度累积步数 = 2,有效批次大小 = 2)
- 学习率:3e - 5
- 训练轮数:3
- 优化器:AdamW(通过
bitsandbytes
实现8位精度)
- 评估步数:每500步
- 检查点保存:每1000步
- 最大输入长度:8000个标记
- 最大目标长度:256个标记
- 束搜索:4束
- 重复惩罚:2.5
- 无重复n - 元语法大小:3
- 全局注意力掩码:在第一个标记上启用
速度、大小和时间
- 使用的GPU:NVIDIA L4
- 训练运行时间:每1000步约2.5小时(总共7995步)
- 训练吞吐量:约1.68个样本/秒
- 检查点大小:约1.84 GB(
.safetensors
)
- 保存的模型大小:约1.84 GB
评估
评估指标
该模型使用标准的ROUGE指标进行评估:
- ROUGE - 1:衡量系统摘要和参考摘要之间单个单词(一元语法)的重叠程度。
- ROUGE - 2:衡量两个连续单词(二元语法)的重叠程度。
- ROUGE - L:衡量系统摘要和参考摘要之间的最长公共子序列。
- ROUGE - Lsum:ROUGE - L的多句子摘要变体。
评估结果
在从测试集中随机选择的20个样本上获得了以下结果:
模型 |
ROUGE - 1 |
ROUGE - 2 |
ROUGE - L |
ROUGE - Lsum |
led - financial_summarization - genai15 |
0.5121 |
0.2089 |
0.2987 |
0.4359 |
BART - financial - summarization |
0.4574 |
0.1976 |
0.2728 |
0.3876 |
LED - large - book - summary |
0.3066 |
0.0470 |
0.1391 |
0.2128 |
总结
led - financial_summarization - genai15
在所有ROUGE指标上均优于基于BART的模型和基础LED模型,这表明它在从长文档中捕捉金融上下文信息并生成连贯且信息丰富的摘要方面具有有效性。
🔧 技术细节
文档未提供具体的技术实现细节,故跳过该章节。
📄 许可证
文档未提及许可证信息,故跳过该章节。