🚀 LexLM_Longformer_BART_fixed_V1模型卡片
该模型是基于BART微调的版本,主要用于长法律文档的多步骤摘要生成。在可再生能源领域,许多决策依赖于复杂冗长的法规文件,此模型通过多步骤摘要方法,先使用提取式摘要压缩原文,再由抽象式摘要模型生成最终摘要,能有效应对长法律文档的摘要需求。
📦 模型信息
属性 |
详情 |
基础模型 |
BART |
数据集 |
dennlinger/eur-lex-sum |
语言 |
英文 |
任务类型 |
摘要生成 |
标签 |
摘要生成、抽象式、混合式、多步骤 |
模型评估结果
评估指标 |
数值 |
ROUGE - 1 |
0.42498553772738057 |
ROUGE - 2 |
0.15839425914885624 |
ROUGE - L |
0.20413437189383524 |
BERTScore |
0.8658945946720059 |
BARTScore |
-3.6140887003040127 |
BLANC |
0.09585484599908967 |
📚 详细文档
模型描述
此模型是BART的微调版本。该研究采用多步骤摘要方法处理长法律文档。在可再生能源领域,许多决策高度依赖法规,但这些法规往往冗长复杂。所提出的架构首先使用一个或多个提取式摘要步骤来压缩源文本,然后由抽象式摘要模型生成最终摘要。这个微调后的抽象式模型在经过LexLM_Longformer按固定比例进行提取式摘要预处理的数据集上进行了训练。该研究使用了多种提取 - 抽象式模型组合,相关内容可在https://huggingface.co/MikaSie 找到。为获得最佳结果,请将提取式摘要作为输入提供给模型,因为它就是为此设计的!
该模型使用的数据集是 EUR - lex - sum 数据集。评估指标可在本模型卡片的元数据中找到。
- 开发者:Mika Sie
- 资助方:乌得勒支大学 & Power2X
- 自然语言处理语言:英文
- 微调基础模型:BART
模型来源
- 代码仓库:https://github.com/MikaSie/Thesis
- 论文链接:PAPER_LINK
- Streamlit演示:STREAMLIT_LINK
💻 使用示例
直接使用
此模型可直接用于长法律文档的摘要生成。不过,建议先使用提取式摘要工具(如LexLM_Longformer)压缩源文本,再将其输入该模型,因为该模型是专门为处理提取式摘要输入而设计的。
以下是使用Huggingface管道的示例:
pip install bert-extractive-summarizer
from summarizer import Summarizer
from transformers import pipeline
extractive_model = Summarizer()
text = 'Original document text to be summarized'
extractive_summary = Summarizer(text)
abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')
result = pipeline(extractive_summary)
更多实现细节可在论文报告中找到。
超出适用范围的使用
如果不进行提取式摘要步骤就使用该模型,可能无法获得最佳结果。为达到最佳性能,建议遵循模型描述中提出的多步骤摘要方法。
🔧 技术细节
偏差
与任何语言模型一样,此模型可能继承训练数据中存在的偏差。因此,要注意源文本中可能存在的偏差,并批判性地评估生成的摘要。
风险
- 该模型可能无法始终生成准确或全面的摘要,尤其是对于复杂的法律文档。
- 模型生成的信息可能不真实。
局限性
- 模型生成的摘要可能过于抽象,或者未能捕捉到重要细节。
- 模型的性能可能会因用作输入的提取式摘要的质量和相关性而异。
建议
- 在将生成的摘要用于关键任务之前,仔细审查和验证。
- 考虑将该模型与人工审查或其他验证机制结合使用,以确保摘要的准确性和完整性。
- 尝试不同的提取式摘要模型或技术,为抽象式模型找到最合适的输入。
- 提供反馈并参与模型的持续研究和开发,以帮助提高其性能并解决其局限性。
- 基于此内容所采取的任何行动均由您自行承担风险。