🚀 意大利法律预训练模型 ITALIAN-LEGAL-BERT
ITALIAN-LEGAL-BERT 是一个基于 Transformer 的预训练语言模型,专门针对意大利法律领域进行优化。它在意大利民法语料库上进行了额外的预训练,在特定领域任务中比通用的意大利语 BERT 模型表现更出色。

🚀 快速开始
ITALIAN-LEGAL-BERT 基于 bert-base-italian-xxl-cased,并在意大利民法语料库上对意大利语 BERT 模型进行了额外的预训练。与“通用”的意大利语 BERT 相比,它在不同的特定领域任务中取得了更好的效果。
✨ 主要特性
模型变体 [新!!!]
注意:我们正在撰写包含更多细节和这些新模型结果的扩展版论文,稍后会及时更新。
🔧 技术细节
我们使用 ITALIAN XXL BERT 初始化 ITALIAN-LEGAL-BERT,并使用 Huggingface PyTorch-Transformers 库在 3.7 GB 来自国家判例法档案的预处理文本上进行了额外 4 个轮次的预训练。具体参数如下:
- 模型架构:BERT,顶部带有语言建模头
- 优化器:AdamW
- 初始学习率:5e-5(线性学习率衰减,结束于 2.525e-9)
- 序列长度:512
- 批量大小:10(受 GPU 容量限制)
- 训练步数:840 万
- 设备:1 * GPU V100 16GB
💻 使用示例
基础用法
可以像下面这样加载 ITALIAN-LEGAL-BERT 模型:
from transformers import AutoModel, AutoTokenizer
model_name = "dlicari/Italian-Legal-BERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
高级用法
可以使用 Transformers 库的填充掩码管道对 ITALIAN-LEGAL-BERT 进行推理:
from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
fill_mask = pipeline("fill-mask", model_name)
fill_mask("Il [MASK] ha chiesto revocarsi l'obbligo di pagamento")
在这个 COLAB: ITALIAN-LEGAL-BERT: 意大利法律下游任务的最小启动示例 中展示了如何将其用于句子相似度、句子分类和命名实体识别任务。

📄 许可证
本项目采用 AFL-3.0 许可证。
📚 详细文档
引用
如果您发现我们的资源或论文有用,请在您的论文中包含以下引用:
@inproceedings{licari_italian-legal-bert_2022,
address = {Bozen-Bolzano, Italy},
series = {{CEUR} {Workshop} {Proceedings}},
title = {{ITALIAN}-{LEGAL}-{BERT}: {A} {Pre}-trained {Transformer} {Language} {Model} for {Italian} {Law}},
volume = {3256},
shorttitle = {{ITALIAN}-{LEGAL}-{BERT}},
url = {https://ceur-ws.org/Vol-3256/#km4law3},
language = {en},
urldate = {2022-11-19},
booktitle = {Companion {Proceedings} of the 23rd {International} {Conference} on {Knowledge} {Engineering} and {Knowledge} {Management}},
publisher = {CEUR},
author = {Licari, Daniele and Comandè, Giovanni},
editor = {Symeonidou, Danai and Yu, Ran and Ceolin, Davide and Poveda-Villalón, María and Audrito, Davide and Caro, Luigi Di and Grasso, Francesca and Nai, Roberto and Sulis, Emilio and Ekaputra, Fajar J. and Kutz, Oliver and Troquard, Nicolas},
month = sep,
year = {2022},
note = {ISSN: 1613-0073},
file = {Full Text PDF:https://ceur-ws.org/Vol-3256/km4law3.pdf},
}