LexLM_Longformer_BART_fixed_V1開源模型 - 專為長篇法律文檔提供摘要生成服務

首頁

Lexlm Longformer BART Fixed V1

由MikaSie開發

基於BART微調的抽象式摘要生成模型，專為處理長篇幅法律文檔設計，採用多步驟摘要生成方法

文本生成

Transformers

英語#法律文檔摘要 #多步驟摘要 #抽取-抽象混合

下載量 15

發布時間 : 5/27/2024

模型概述

該模型通過結合抽取式和抽象式摘要技術，專門用於生成法律文檔的摘要。建議先使用抽取式摘要預處理文本再輸入本模型以獲得最佳效果。

模型特點

多步驟摘要生成

先使用抽取式摘要壓縮文本，再通過抽象式模型生成最終摘要

法律文檔優化

專門針對法律文檔特點進行優化，處理冗長複雜的法規文本

混合式方法

結合抽取式和抽象式摘要的優勢，提高摘要質量

模型能力

法律文檔摘要生成

長文本處理

抽象式摘要

使用案例

法律領域

歐盟法規摘要

為複雜的歐盟法規生成簡明摘要

ROUGE-1得分0.425，BERTScore得分0.866

可再生能源政策分析

從冗長的政策文件中提取關鍵信息

🚀 LexLM_Longformer_BART_fixed_V1模型卡片

該模型是基於BART微調的版本，主要用於長法律文檔的多步驟摘要生成。在可再生能源領域，許多決策依賴於複雜冗長的法規文件，此模型通過多步驟摘要方法，先使用提取式摘要壓縮原文，再由抽象式摘要模型生成最終摘要，能有效應對長法律文檔的摘要需求。

📦 模型信息

屬性	詳情
基礎模型	BART
數據集	dennlinger/eur-lex-sum
語言	英文
任務類型	摘要生成
標籤	摘要生成、抽象式、混合式、多步驟

模型評估結果

評估指標	數值
ROUGE - 1	0.42498553772738057
ROUGE - 2	0.15839425914885624
ROUGE - L	0.20413437189383524
BERTScore	0.8658945946720059
BARTScore	-3.6140887003040127
BLANC	0.09585484599908967

📚 詳細文檔

模型描述

此模型是BART的微調版本。該研究採用多步驟摘要方法處理長法律文檔。在可再生能源領域，許多決策高度依賴法規，但這些法規往往冗長複雜。所提出的架構首先使用一個或多個提取式摘要步驟來壓縮源文本，然後由抽象式摘要模型生成最終摘要。這個微調後的抽象式模型在經過LexLM_Longformer按固定比例進行提取式摘要預處理的數據集上進行了訓練。該研究使用了多種提取 - 抽象式模型組合，相關內容可在https://huggingface.co/MikaSie 找到。為獲得最佳結果，請將提取式摘要作為輸入提供給模型，因為它就是為此設計的！

該模型使用的數據集是 EUR - lex - sum 數據集。評估指標可在本模型卡片的元數據中找到。

開發者：Mika Sie
資助方：烏得勒支大學 & Power2X
自然語言處理語言：英文
微調基礎模型：BART

模型來源

代碼倉庫：https://github.com/MikaSie/Thesis
論文鏈接：PAPER_LINK
Streamlit演示：STREAMLIT_LINK

💻 使用示例

直接使用

此模型可直接用於長法律文檔的摘要生成。不過，建議先使用提取式摘要工具（如LexLM_Longformer）壓縮源文本，再將其輸入該模型，因為該模型是專門為處理提取式摘要輸入而設計的。

以下是使用Huggingface管道的示例：

pip install bert-extractive-summarizer

from summarizer import Summarizer
from transformers import pipeline

extractive_model = Summarizer()

text = 'Original document text to be summarized'

extractive_summary = Summarizer(text)

abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')

result = pipeline(extractive_summary)

更多實現細節可在論文報告中找到。