🚀 模型卡片:LEGIT-BART系列
LEGIT-BART系列模型是用於意大利法律文本處理的預訓練Transformer模型。它基於BART-IT進一步在意大利法律語料庫上進行預訓練,具備長文本處理能力,可應用於法律文本的摘要生成等任務。
🚀 快速開始
安裝依賴
確保你已經安裝了transformers
庫,若未安裝,可以使用以下命令進行安裝:
pip install transformers
代碼示例
from transformers import BartForConditionalGeneration, AutoTokenizer
model_name = "morenolq/LEGIT-BART-LSG-4096"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "<mask> 1234: Il contratto si intende concluso quando..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=4096, truncation=True)
summary_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝 摘要:", summary)
✨ 主要特性
- 擴展上下文長度:採用Local-Sparse-Global (LSG) Attention機制,支持處理長達16,384個標記的文本。
- 基於法律文檔訓練:在法規、判例法和合同等法律文件上進行訓練。
- 未針對特定任務微調:模型需要進一步調整以適應特定的法律自然語言處理任務。
📦 可用模型
模型 |
描述 |
鏈接 |
LEGIT-BART |
在意大利法律文本上對morenolq/bart-it 進行持續預訓練 |
🔗 鏈接 |
LEGIT-BART-LSG-4096 |
對morenolq/bart-it 進行持續預訓練,支持4,096個標記 |
🔗 鏈接 |
LEGIT-BART-LSG-16384 |
對morenolq/bart-it 進行持續預訓練,支持16,384個標記 |
🔗 鏈接 |
LEGIT-SCRATCH-BART |
在意大利法律文本上從頭開始訓練 |
🔗 鏈接 |
LEGIT-SCRATCH-BART-LSG-4096 |
使用LSG注意力機制從頭開始訓練,支持4,096個標記 |
🔗 鏈接 |
LEGIT-SCRATCH-BART-LSG-16384 |
使用LSG注意力機制從頭開始訓練,支持16,384個標記 |
🔗 鏈接 |
BART-IT-LSG-4096 |
morenolq/bart-it 採用LSG注意力機制,支持4,096個標記(未進行法律適配) |
🔗 鏈接 |
BART-IT-LSG-16384 |
morenolq/bart-it 採用LSG注意力機制,支持16,384個標記(未進行法律適配) |
🔗 鏈接 |
🔧 技術細節
架構
- 基礎模型:
morenolq/bart-it
- Transformer編解碼器:採用Transformer架構進行文本編碼和解碼。
- LSG注意力機制:適用於長文檔處理。
- 特定分詞器:從頭開始訓練的模型使用特定的分詞器,但在實驗中持續預訓練的效果更好。
訓練數據
📚 詳細文檔
限制與倫理考量
⚠️ 重要提示
- 未針對特定任務微調:模型在法律文本上進行了預訓練,但可能需要進一步調整以適應特定的法律自然語言處理任務(如摘要生成、問答)。
- 偏差與公平性:法律文本可能包含法律系統中存在的偏差,使用模型時應確保公平性和道德性。
- 法律建議:模型不能替代專業的法律建議,遇到法律問題時請諮詢合格的法律專業人士。
引用
該模型相關的論文目前正在審核中,發表後將在此更新。
@article{benedetto2025legitbart,
title = {LegItBART: a summarization model for Italian legal documents},
author = {Benedetto, Irene and La Quatra, Moreno and Cagliero, Luca},
year = 2025,
journal = {Artificial Intelligence and Law},
publisher = {Springer},
pages = {1--31},
doi = {10.1007/s10506-025-09436-y},
url = {doi.org/10.1007/s10506-025-09436-y}
}
📄 許可證
本模型使用MIT許可證。