🚀 LegalBert-pt
LegalBert-pt是一款面向葡萄牙語法律領域的語言模型。該模型經過預訓練以獲取該領域的專業知識,隨後可針對特定任務進行調整。此模型有兩個版本:一個是作為BERTimbau模型的補充,另一個則是從頭開始構建的。在分析模型的困惑度指標時,基於BERTimbau的模型的有效性十分明顯。此外,還在識別法律實體和對法律請願書進行分類的任務中進行了實驗。結果表明,在所有任務中,使用特定的語言模型所取得的效果優於使用通用語言模型,這表明為法律領域專門定製語言模型是提高學習算法準確性的一個重要因素。
🚀 快速開始
安裝依賴
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
✨ 主要特性
- 專為葡萄牙語法律領域定製,經過預訓練以獲取領域專業知識。
- 有基於BERTimbau的補充版本和從頭構建的版本。
- 在法律實體識別和法律請願書分類等任務中表現優於通用語言模型。
📦 安裝指南
使用transformers
庫加載模型和分詞器,示例代碼如下:
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
💻 使用示例
基礎用法
from transformers import AutoTokenizer
from transformers import AutoModelForPreTraining
from transformers import AutoModel
model = AutoModelForPreTraining.from_pretrained('raquelsilveira/legalbertpt_fp')
tokenizer = AutoTokenizer.from_pretrained('raquelsilveira/legalbertpt_fp')
📚 詳細文檔
可用模型
模型 |
初始模型 |
層數 |
參數數量 |
LegalBert-pt SC |
|
12 |
1.1億 |
LegalBert-pt FP |
neuralmind/bert-base-portuguese-cased |
12 |
1.1億 |
數據集
為了對LegalBert-pt語言模型的不同版本進行預訓練,我們從巴西的十個法院總共收集了150萬份葡萄牙語法律文件。這些文件包括四種類型:初始請願書、請願書、裁決和判決書。下表展示了這些文件的分佈情況。
這些數據來自巴西國家司法委員會(CNJ)的Codex系統,該系統保存著巴西葡萄牙語中規模最大、種類最多的法律文本集合。作為與本文作者達成的協議的一部分,CNJ為我們的研究提供了這些數據。
數據源 |
文件數量 |
百分比 |
塞阿拉州司法法院 |
80,504 |
5.37% |
皮奧伊州司法法院 |
90,514 |
6.03% |
里約熱內盧州司法法院 |
33,320 |
2.22% |
朗多尼亞州司法法院 |
971,615 |
64.77% |
第三地區聯邦區域法院 |
70,196 |
4.68% |
第五地區聯邦區域法院 |
6,767 |
0.45% |
第九地區勞動法院 |
16,133 |
1.08% |
第十一地區勞動法院 |
5,351 |
0.36% |
第十三地區勞動法院 |
155,567 |
10.37% |
第二十三地區勞動法院 |
70,033 |
4.67% |
總計 |
1,500,000 |
100.00% |
📄 許可證
本項目採用OpenRail許可證。
📚 引用方式
Raquel Silveira, Caio Ponte, Vitor Almeida, Vládia Pinheiro, and Vasco Furtado. 2023. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In Intelligent Systems: 12th Brazilian Conference, BRACIS 2023, Belo Horizonte, Brazil, September 25–29, 2023, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 268–282. https://doi.org/10.1007/978-3-031-45392-2_18