🚀 LexLM_Longformer_BART_fixed_V1模型卡片
該模型是基於BART微調的版本,主要用於長法律文檔的多步驟摘要生成。在可再生能源領域,許多決策依賴於複雜冗長的法規文件,此模型通過多步驟摘要方法,先使用提取式摘要壓縮原文,再由抽象式摘要模型生成最終摘要,能有效應對長法律文檔的摘要需求。
📦 模型信息
屬性 |
詳情 |
基礎模型 |
BART |
數據集 |
dennlinger/eur-lex-sum |
語言 |
英文 |
任務類型 |
摘要生成 |
標籤 |
摘要生成、抽象式、混合式、多步驟 |
模型評估結果
評估指標 |
數值 |
ROUGE - 1 |
0.42498553772738057 |
ROUGE - 2 |
0.15839425914885624 |
ROUGE - L |
0.20413437189383524 |
BERTScore |
0.8658945946720059 |
BARTScore |
-3.6140887003040127 |
BLANC |
0.09585484599908967 |
📚 詳細文檔
模型描述
此模型是BART的微調版本。該研究採用多步驟摘要方法處理長法律文檔。在可再生能源領域,許多決策高度依賴法規,但這些法規往往冗長複雜。所提出的架構首先使用一個或多個提取式摘要步驟來壓縮源文本,然後由抽象式摘要模型生成最終摘要。這個微調後的抽象式模型在經過LexLM_Longformer按固定比例進行提取式摘要預處理的數據集上進行了訓練。該研究使用了多種提取 - 抽象式模型組合,相關內容可在https://huggingface.co/MikaSie 找到。為獲得最佳結果,請將提取式摘要作為輸入提供給模型,因為它就是為此設計的!
該模型使用的數據集是 EUR - lex - sum 數據集。評估指標可在本模型卡片的元數據中找到。
- 開發者:Mika Sie
- 資助方:烏得勒支大學 & Power2X
- 自然語言處理語言:英文
- 微調基礎模型:BART
模型來源
- 代碼倉庫:https://github.com/MikaSie/Thesis
- 論文鏈接:PAPER_LINK
- Streamlit演示:STREAMLIT_LINK
💻 使用示例
直接使用
此模型可直接用於長法律文檔的摘要生成。不過,建議先使用提取式摘要工具(如LexLM_Longformer)壓縮源文本,再將其輸入該模型,因為該模型是專門為處理提取式摘要輸入而設計的。
以下是使用Huggingface管道的示例:
pip install bert-extractive-summarizer
from summarizer import Summarizer
from transformers import pipeline
extractive_model = Summarizer()
text = 'Original document text to be summarized'
extractive_summary = Summarizer(text)
abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')
result = pipeline(extractive_summary)
更多實現細節可在論文報告中找到。
超出適用範圍的使用
如果不進行提取式摘要步驟就使用該模型,可能無法獲得最佳結果。為達到最佳性能,建議遵循模型描述中提出的多步驟摘要方法。
🔧 技術細節
偏差
與任何語言模型一樣,此模型可能繼承訓練數據中存在的偏差。因此,要注意源文本中可能存在的偏差,並批判性地評估生成的摘要。
風險
- 該模型可能無法始終生成準確或全面的摘要,尤其是對於複雜的法律文檔。
- 模型生成的信息可能不真實。
侷限性
- 模型生成的摘要可能過於抽象,或者未能捕捉到重要細節。
- 模型的性能可能會因用作輸入的提取式摘要的質量和相關性而異。
建議
- 在將生成的摘要用於關鍵任務之前,仔細審查和驗證。
- 考慮將該模型與人工審查或其他驗證機制結合使用,以確保摘要的準確性和完整性。
- 嘗試不同的提取式摘要模型或技術,為抽象式模型找到最合適的輸入。
- 提供反饋並參與模型的持續研究和開發,以幫助提高其性能並解決其侷限性。
- 基於此內容所採取的任何行動均由您自行承擔風險。