Legalbertpt_fp開源語言模型 - 適用於葡萄牙語法律領域特定任務微調

首頁

Legalbertpt Fp

由raquelsilveira開發

Legalbert-pt 是針對葡萄牙語法律領域的語言模型，通過預訓練獲得領域專業化能力，可進一步微調用於特定任務。

大型語言模型

Transformers

開源協議:Openrail #葡萄牙語法律文本 #巴西司法文書 #領域專用BERT

下載量 738

發布時間 : 5/2/2023

模型概述

Legalbert-pt 是針對葡萄牙語法律領域的語言模型，開發了兩個版本：一個作為BERTimbau模型的補充版本，另一個則是完全從頭訓練的版本。在法律實體識別和訴訟文書分類任務中的實驗表明，專業領域語言模型在所有任務中的表現均優於通用語言模型。

模型特點

法律領域專業化

針對葡萄牙語法律領域進行預訓練，獲得領域專業化能力。

兩種版本選擇

提供基於BERTimbau的補充版本和完全從頭訓練的版本，滿足不同需求。

性能優異

在法律實體識別和訴訟文書分類任務中表現優於通用語言模型。

模型能力

法律文本理解

法律實體識別

訴訟文書分類

使用案例

法律文書處理

法律實體識別

識別法律文書中的人名、機構名等實體。

表現優於通用語言模型

訴訟文書分類

對起訴狀、訴狀、裁決書和判決書等法律文書進行分類。

表現優於通用語言模型

🚀 LegalBert-pt

LegalBert-pt是一款面向葡萄牙語法律領域的語言模型。該模型經過預訓練以獲取該領域的專業知識，隨後可針對特定任務進行調整。此模型有兩個版本：一個是作為BERTimbau模型的補充，另一個則是從頭開始構建的。在分析模型的困惑度指標時，基於BERTimbau的模型的有效性十分明顯。此外，還在識別法律實體和對法律請願書進行分類的任務中進行了實驗。結果表明，在所有任務中，使用特定的語言模型所取得的效果優於使用通用語言模型，這表明為法律領域專門定製語言模型是提高學習算法準確性的一個重要因素。

🚀 快速開始

安裝依賴

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

✨ 主要特性

專為葡萄牙語法律領域定製，經過預訓練以獲取領域專業知識。
有基於BERTimbau的補充版本和從頭構建的版本。
在法律實體識別和法律請願書分類等任務中表現優於通用語言模型。

📦 安裝指南

使用transformers庫加載模型和分詞器，示例代碼如下：

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

💻 使用示例

基礎用法

from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads
  
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')

📚 詳細文檔

可用模型

模型	初始模型	層數	參數數量
LegalBert-pt SC		12	1.1億
LegalBert-pt FP	neuralmind/bert-base-portuguese-cased	12	1.1億

數據集

為了對LegalBert-pt語言模型的不同版本進行預訓練，我們從巴西的十個法院總共收集了150萬份葡萄牙語法律文件。這些文件包括四種類型：初始請願書、請願書、裁決和判決書。下表展示了這些文件的分佈情況。

這些數據來自巴西國家司法委員會（CNJ）的Codex系統，該系統保存著巴西葡萄牙語中規模最大、種類最多的法律文本集合。作為與本文作者達成的協議的一部分，CNJ為我們的研究提供了這些數據。

數據源	文件數量	百分比
塞阿拉州司法法院	80,504	5.37%
皮奧伊州司法法院	90,514	6.03%
里約熱內盧州司法法院	33,320	2.22%
朗多尼亞州司法法院	971,615	64.77%
第三地區聯邦區域法院	70,196	4.68%
第五地區聯邦區域法院	6,767	0.45%
第九地區勞動法院	16,133	1.08%
第十一地區勞動法院	5,351	0.36%
第十三地區勞動法院	155,567	10.37%
第二十三地區勞動法院	70,033	4.67%
總計	1,500,000	100.00%

📄 許可證

本項目採用OpenRail許可證。

📚 引用方式

Raquel Silveira, Caio Ponte, Vitor Almeida, Vládia Pinheiro, and Vasco Furtado. 2023. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In Intelligent Systems: 12th Brazilian Conference, BRACIS 2023, Belo Horizonte, Brazil, September 25–29, 2023, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 268–282. https://doi.org/10.1007/978-3-031-45392-2_18