Legalbertpt_fp开源语言模型 - 适用于葡萄牙语法律领域特定任务微调

首页

Legalbertpt Fp

由 raquelsilveira 开发

Legalbert-pt 是针对葡萄牙语法律领域的语言模型，通过预训练获得领域专业化能力，可进一步微调用于特定任务。

大型语言模型

Transformers

开源协议:Openrail #葡萄牙语法律文本 #巴西司法文书 #领域专用BERT

下载量 738

发布时间 : 5/2/2023

模型简介

Legalbert-pt 是针对葡萄牙语法律领域的语言模型，开发了两个版本：一个作为BERTimbau模型的补充版本，另一个则是完全从头训练的版本。在法律实体识别和诉讼文书分类任务中的实验表明，专业领域语言模型在所有任务中的表现均优于通用语言模型。

模型特点

法律领域专业化

针对葡萄牙语法律领域进行预训练，获得领域专业化能力。

两种版本选择

提供基于BERTimbau的补充版本和完全从头训练的版本，满足不同需求。

性能优异

在法律实体识别和诉讼文书分类任务中表现优于通用语言模型。

模型能力

法律文本理解

法律实体识别

诉讼文书分类

使用案例

法律文书处理

法律实体识别

识别法律文书中的人名、机构名等实体。

表现优于通用语言模型

诉讼文书分类

对起诉状、诉状、裁决书和判决书等法律文书进行分类。

表现优于通用语言模型

🚀 LegalBert-pt

LegalBert-pt是一款面向葡萄牙语法律领域的语言模型。该模型经过预训练以获取该领域的专业知识，随后可针对特定任务进行调整。此模型有两个版本：一个是作为BERTimbau模型的补充，另一个则是从头开始构建的。在分析模型的困惑度指标时，基于BERTimbau的模型的有效性十分明显。此外，还在识别法律实体和对法律请愿书进行分类的任务中进行了实验。结果表明，在所有任务中，使用特定的语言模型所取得的效果优于使用通用语言模型，这表明为法律领域专门定制语言模型是提高学习算法准确性的一个重要因素。

🚀 快速开始

安装依赖

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

✨ 主要特性

专为葡萄牙语法律领域定制，经过预训练以获取领域专业知识。
有基于BERTimbau的补充版本和从头构建的版本。
在法律实体识别和法律请愿书分类等任务中表现优于通用语言模型。

📦 安装指南

使用transformers库加载模型和分词器，示例代码如下：

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

💻 使用示例

基础用法

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

📚 详细文档

可用模型

模型	初始模型	层数	参数数量
LegalBert-pt SC		12	1.1亿
LegalBert-pt FP	neuralmind/bert-base-portuguese-cased	12	1.1亿

数据集

为了对LegalBert-pt语言模型的不同版本进行预训练，我们从巴西的十个法院总共收集了150万份葡萄牙语法律文件。这些文件包括四种类型：初始请愿书、请愿书、裁决和判决书。下表展示了这些文件的分布情况。

这些数据来自巴西国家司法委员会（CNJ）的Codex系统，该系统保存着巴西葡萄牙语中规模最大、种类最多的法律文本集合。作为与本文作者达成的协议的一部分，CNJ为我们的研究提供了这些数据。

数据源	文件数量	百分比
塞阿拉州司法法院	80,504	5.37%
皮奥伊州司法法院	90,514	6.03%
里约热内卢州司法法院	33,320	2.22%
朗多尼亚州司法法院	971,615	64.77%
第三地区联邦区域法院	70,196	4.68%
第五地区联邦区域法院	6,767	0.45%
第九地区劳动法院	16,133	1.08%
第十一地区劳动法院	5,351	0.36%
第十三地区劳动法院	155,567	10.37%
第二十三地区劳动法院	70,033	4.67%
总计	1,500,000	100.00%

📄 许可证

本项目采用OpenRail许可证。

📚 引用方式

Raquel Silveira, Caio Ponte, Vitor Almeida, Vládia Pinheiro, and Vasco Furtado. 2023. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In Intelligent Systems: 12th Brazilian Conference, BRACIS 2023, Belo Horizonte, Brazil, September 25–29, 2023, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 268–282. https://doi.org/10.1007/978-3-031-45392-2_18