LexLM_Longformer_BART_fixed_V1开源模型 - 专为长篇法律文档提供摘要生成服务

首页

Lexlm Longformer BART Fixed V1

由 MikaSie 开发

基于BART微调的抽象式摘要生成模型，专为处理长篇幅法律文档设计，采用多步骤摘要生成方法

文本生成

Transformers

英语#法律文档摘要 #多步骤摘要 #抽取-抽象混合

下载量 15

发布时间 : 5/27/2024

模型简介

该模型通过结合抽取式和抽象式摘要技术，专门用于生成法律文档的摘要。建议先使用抽取式摘要预处理文本再输入本模型以获得最佳效果。

模型特点

多步骤摘要生成

先使用抽取式摘要压缩文本，再通过抽象式模型生成最终摘要

法律文档优化

专门针对法律文档特点进行优化，处理冗长复杂的法规文本

混合式方法

结合抽取式和抽象式摘要的优势，提高摘要质量

模型能力

法律文档摘要生成

长文本处理

抽象式摘要

使用案例

法律领域

欧盟法规摘要

为复杂的欧盟法规生成简明摘要

ROUGE-1得分0.425，BERTScore得分0.866

可再生能源政策分析

从冗长的政策文件中提取关键信息

🚀 LexLM_Longformer_BART_fixed_V1模型卡片

该模型是基于BART微调的版本，主要用于长法律文档的多步骤摘要生成。在可再生能源领域，许多决策依赖于复杂冗长的法规文件，此模型通过多步骤摘要方法，先使用提取式摘要压缩原文，再由抽象式摘要模型生成最终摘要，能有效应对长法律文档的摘要需求。

📦 模型信息

属性	详情
基础模型	BART
数据集	dennlinger/eur-lex-sum
语言	英文
任务类型	摘要生成
标签	摘要生成、抽象式、混合式、多步骤

模型评估结果

评估指标	数值
ROUGE - 1	0.42498553772738057
ROUGE - 2	0.15839425914885624
ROUGE - L	0.20413437189383524
BERTScore	0.8658945946720059
BARTScore	-3.6140887003040127
BLANC	0.09585484599908967

📚 详细文档

模型描述

此模型是BART的微调版本。该研究采用多步骤摘要方法处理长法律文档。在可再生能源领域，许多决策高度依赖法规，但这些法规往往冗长复杂。所提出的架构首先使用一个或多个提取式摘要步骤来压缩源文本，然后由抽象式摘要模型生成最终摘要。这个微调后的抽象式模型在经过LexLM_Longformer按固定比例进行提取式摘要预处理的数据集上进行了训练。该研究使用了多种提取 - 抽象式模型组合，相关内容可在https://huggingface.co/MikaSie 找到。为获得最佳结果，请将提取式摘要作为输入提供给模型，因为它就是为此设计的！

该模型使用的数据集是 EUR - lex - sum 数据集。评估指标可在本模型卡片的元数据中找到。

开发者：Mika Sie
资助方：乌得勒支大学 & Power2X
自然语言处理语言：英文
微调基础模型：BART

模型来源

代码仓库：https://github.com/MikaSie/Thesis
论文链接：PAPER_LINK
Streamlit演示：STREAMLIT_LINK

💻 使用示例

直接使用

此模型可直接用于长法律文档的摘要生成。不过，建议先使用提取式摘要工具（如LexLM_Longformer）压缩源文本，再将其输入该模型，因为该模型是专门为处理提取式摘要输入而设计的。

以下是使用Huggingface管道的示例：

pip install bert-extractive-summarizer

from summarizer import Summarizer
from transformers import pipeline

extractive_model = Summarizer()

text = 'Original document text to be summarized'

extractive_summary = Summarizer(text)

abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')

result = pipeline(extractive_summary)

更多实现细节可在论文报告中找到。