LEGIT-BART開源意大利法律文本處理模型 - 支持長文本與法律任務

首頁

LEGIT BART

由morenolq開發

LEGIT-BART是一系列基於BART-IT預訓練的意大利法律文本處理模型，支持長文本處理和法律領域任務。

大型語言模型

Transformers

其他開源協議:MIT #意大利法律文本 #長文檔處理 #法律摘要生成

下載量 16

發布時間 : 2/2/2025

模型概述

該系列模型基於BART-IT架構，專門針對意大利法律文本進行優化，支持文本生成、摘要等任務，特別適合處理長法律文檔。

模型特點

法律領域優化

專門針對意大利法律文本進行預訓練，包括法規、判例法和合同等法律文件。

長文本處理能力

部分模型採用LSG注意力機制，最高支持16,384個標記的長文檔處理。

多版本選擇

提供從基礎版到長文本優化版等多種模型變體，滿足不同場景需求。

模型能力

意大利法律文本生成

法律文檔摘要

長文本處理

掩碼填充

使用案例

法律文檔處理

法律條款生成

根據部分法律條款自動生成完整條款內容

判決書摘要

自動生成法院判決書的要點摘要

合同處理

合同條款補全

根據部分合同內容自動補全缺失條款

🚀 📌 LEGIT - BART系列模型卡片

LEGIT - BART系列模型是基於預訓練的Transformer架構，專門用於處理意大利法律文本的模型。它在BART - IT的基礎上，進一步在意大利法律語料庫上進行預訓練，能有效處理法律領域的文本。

🚀 快速開始

以下是使用morenolq/LEGIT - BART模型的示例代碼：

from transformers import BartForConditionalGeneration, AutoTokenizer

# 加載分詞器和模型
model_name = "morenolq/LEGIT-BART"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 示例輸入
input_text = "<mask> 1234: Il contratto si intende concluso quando..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

# 預訓練模型填充掩碼
output_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
output_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝:", output_text)

✨ 主要特性

擴展上下文長度：採用Local - Sparse - Global (LSG) Attention機制，支持最長達16,384個標記的上下文處理 📜。
基於法律文檔訓練：在法規、判例法和合同等法律文件上進行訓練，能更好地理解法律領域的文本 📑。
未針對特定任務微調：模型需要進一步調整以適應特定的法律NLP任務。

📦 安裝指南

文檔未提及安裝步驟，如需使用可參考transformers庫的官方安裝說明。

💻 使用示例

基礎用法

from transformers import BartForConditionalGeneration, AutoTokenizer

# 加載分詞器和模型
model_name = "morenolq/LEGIT-BART"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 示例輸入
input_text = "<mask> 1234: Il contratto si intende concluso quando..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

# 預訓練模型填充掩碼
output_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
output_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝:", output_text)

📚 詳細文檔

可用模型

模型	描述	鏈接
LEGIT - BART	在意大利法律文本上對`morenolq/bart - it`進行持續預訓練	🔗 鏈接
LEGIT - BART - LSG - 4096	對`morenolq/bart - it`進行持續預訓練，支持4,096個標記	🔗 鏈接
LEGIT - BART - LSG - 16384	對`morenolq/bart - it`進行持續預訓練，支持16,384個標記	🔗 鏈接
LEGIT - SCRATCH - BART	在意大利法律文本上從頭開始訓練	🔗 鏈接
LEGIT - SCRATCH - BART - LSG - 4096	使用LSG注意力機制從頭開始訓練，支持4,096個標記	🔗 鏈接
LEGIT - SCRATCH - BART - LSG - 16384	使用LSG注意力機制從頭開始訓練，支持16,384個標記	🔗 鏈接
BART - IT - LSG - 4096	`morenolq/bart - it`採用LSG注意力機制，支持4,096個標記（未進行法律適配）	🔗 鏈接
BART - IT - LSG - 16384	`morenolq/bart - it`採用LSG注意力機制，支持16,384個標記（未進行法律適配）	🔗 鏈接

模型詳情

架構

基礎模型：morenolq/bart - it
Transformer編解碼器
LSG注意力機制：適用於長文檔處理
特定分詞器：從頭開始訓練的模型使用特定分詞器，但在實驗中，持續預訓練的效果更好。

訓練數據

數據集：joelniklaus/Multi_Legal_Pile
法律文本類型：
- 立法（法律、法規、修正案）
- 判例法（司法判決）
- 合同（公共法律協議）

🔧 技術細節

模型基於Transformer架構，使用BART - IT作為基礎模型，通過在意大利法律語料庫上進行預訓練，結合LSG注意力機制擴展上下文長度。在訓練過程中，使用了多種法律文本類型，以提高模型對法律領域文本的理解能力。

📄 許可證

本項目採用MIT許可證。

⚠️ 重要提示

未針對特定任務微調：模型在法律文本上進行了預訓練，但可能需要進一步調整以適應特定的法律NLP任務（如摘要生成、問答等）。

偏差和公平性：法律文本可能包含法律系統中存在的偏差。使用模型時應注意確保公平性和道德性。

法律建議：模型不能替代專業的法律建議。在處理法律事務時，請始終諮詢合格的法律專業人士。

📚 引用

介紹LEGIT - BART模型的論文目前正在審核中，發佈後將在此更新。

@article{benedetto2025legitbart,
    title        = {LegItBART: a summarization model for Italian legal documents},
    author       = {Benedetto, Irene and La Quatra, Moreno and Cagliero, Luca},
    year         = 2025,
    journal      = {Artificial Intelligence and Law},
    publisher    = {Springer},
    pages        = {1--31},
    doi          = {10.1007/s10506-025-09436-y},
    url          = {doi.org/10.1007/s10506-025-09436-y}
}