🚀 LegalBert-pt
LegalBert-pt是一款面向葡萄牙语法律领域的语言模型。该模型经过预训练以获取该领域的专业知识,随后可针对特定任务进行调整。此模型有两个版本:一个是作为BERTimbau模型的补充,另一个则是从头开始构建的。在分析模型的困惑度指标时,基于BERTimbau的模型的有效性十分明显。此外,还在识别法律实体和对法律请愿书进行分类的任务中进行了实验。结果表明,在所有任务中,使用特定的语言模型所取得的效果优于使用通用语言模型,这表明为法律领域专门定制语言模型是提高学习算法准确性的一个重要因素。
🚀 快速开始
安装依赖
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
✨ 主要特性
- 专为葡萄牙语法律领域定制,经过预训练以获取领域专业知识。
- 有基于BERTimbau的补充版本和从头构建的版本。
- 在法律实体识别和法律请愿书分类等任务中表现优于通用语言模型。
📦 安装指南
使用transformers
库加载模型和分词器,示例代码如下:
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
💻 使用示例
基础用法
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
📚 详细文档
可用模型
模型 |
初始模型 |
层数 |
参数数量 |
LegalBert-pt SC |
|
12 |
1.1亿 |
LegalBert-pt FP |
neuralmind/bert-base-portuguese-cased |
12 |
1.1亿 |
数据集
为了对LegalBert-pt语言模型的不同版本进行预训练,我们从巴西的十个法院总共收集了150万份葡萄牙语法律文件。这些文件包括四种类型:初始请愿书、请愿书、裁决和判决书。下表展示了这些文件的分布情况。
这些数据来自巴西国家司法委员会(CNJ)的Codex系统,该系统保存着巴西葡萄牙语中规模最大、种类最多的法律文本集合。作为与本文作者达成的协议的一部分,CNJ为我们的研究提供了这些数据。
数据源 |
文件数量 |
百分比 |
塞阿拉州司法法院 |
80,504 |
5.37% |
皮奥伊州司法法院 |
90,514 |
6.03% |
里约热内卢州司法法院 |
33,320 |
2.22% |
朗多尼亚州司法法院 |
971,615 |
64.77% |
第三地区联邦区域法院 |
70,196 |
4.68% |
第五地区联邦区域法院 |
6,767 |
0.45% |
第九地区劳动法院 |
16,133 |
1.08% |
第十一地区劳动法院 |
5,351 |
0.36% |
第十三地区劳动法院 |
155,567 |
10.37% |
第二十三地区劳动法院 |
70,033 |
4.67% |
总计 |
1,500,000 |
100.00% |
📄 许可证
本项目采用OpenRail许可证。
📚 引用方式
Raquel Silveira, Caio Ponte, Vitor Almeida, Vládia Pinheiro, and Vasco Furtado. 2023. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In Intelligent Systems: 12th Brazilian Conference, BRACIS 2023, Belo Horizonte, Brazil, September 25–29, 2023, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 268–282. https://doi.org/10.1007/978-3-031-45392-2_18