RoBERTaLexPT-base 開源法律領域葡萄牙語模型

首頁

Robertalexpt Base

由eduagarcia開發

RoBERTaLexPT-base 是一個葡萄牙語掩碼語言模型，專門針對法律領域優化，通過LegalPT和CrawlPT語料庫預訓練。

大型語言模型

Transformers

其他#葡萄牙語法律文本 #高精度NER #領域專用預訓練

下載量 366

發布時間 : 1/9/2024

模型概述

該模型是基於RoBERTa架構的葡萄牙語語言模型，專注於法律文本處理，支持葡萄牙語(包括巴西和歐洲變體)。

模型特點

法律領域優化

專門針對葡萄牙語法律文本進行預訓練和優化

多樣化訓練數據

結合法律領域(LegalPT)和通用領域(CrawlPT)數據進行訓練

高性能

在葡萄牙語法律NLP任務中表現優於同類模型

數據去重

訓練前使用MinHash算法對數據進行去重處理

模型能力

葡萄牙語文本理解

法律文本分析

命名實體識別

標記分類

使用案例

法律文本處理

法律文件分析

分析法律文件中的關鍵信息

在PortuLex基準測試中達到85.41%的平均F1分數

法律實體識別

識別法律文本中的特定實體

在LeNER數據集上達到90.73%的F1分數

🚀 RoBERTaLexPT-base

RoBERTaLexPT-base 是一個葡萄牙語掩碼語言模型，它基於 LegalPT 和 CrawlPT 語料庫從頭開始預訓練，採用了與 RoBERTa-base 相同的架構，該架構由 Liu 等人在 2019 年提出。此模型可用於解決葡萄牙語法律領域的語言處理問題，在相關任務中展現出了出色的性能。

✨ 主要特性

語言支持：支持葡萄牙語（包括巴西葡萄牙語和葡萄牙本土葡萄牙語）。
許可證：採用知識共享署名 4.0 國際公共許可證。
代碼倉庫：https://github.com/eduagarcia/roberta-legal-portuguese
相關論文：https://aclanthology.org/2024.propor-1.38/

📚 詳細文檔

評估

該模型在 "PortuLex" 基準測試上進行了評估，這是一個四任務基準測試，旨在評估葡萄牙語法律領域語言模型的質量和性能。

在 PortuLex 基準測試的測試集上，多個模型的宏 F1 分數（%）如下：

模型	LeNER	UlyNER-PL	FGV-STF	RRIP	平均（%）
		粗粒度/細粒度	粗粒度
BERTimbau-base	88.34	86.39/83.83	79.34	82.34	83.78
BERTimbau-large	88.64	87.77/84.74	79.71	83.79	84.60
Albertina-PT-BR-base	89.26	86.35/84.63	79.30	81.16	83.80
Albertina-PT-BR-xlarge	90.09	88.36/86.62	79.94	82.79	85.08
BERTikal-base	83.68	79.21/75.70	77.73	81.11	79.99
JurisBERT-base	81.74	81.67/77.97	76.04	80.85	79.61
BERTimbauLAW-base	84.90	87.11/84.42	79.78	82.35	83.20
Legal-XLM-R-base	87.48	83.49/83.16	79.79	82.35	83.24
Legal-XLM-R-large	88.39	84.65/84.55	79.36	81.66	83.50
Legal-RoBERTa-PT-large	87.96	88.32/84.83	79.57	81.98	84.02
我們的模型
RoBERTaTimbau-base（BERTimbau 的復現模型）	89.68	87.53/85.74	78.82	82.03	84.29
RoBERTaLegalPT-base（在 LegalPT 上訓練）	90.59	85.45/84.40	79.92	82.84	84.57
RoBERTaCrawlPT-base （在 CrawlPT 上訓練）	89.24	88.22/86.58	79.88	82.80	84.83
RoBERTaLexPT-base（本模型）（在 CrawlPT + LegalPT 上訓練）	90.73	88.56/86.03	80.40	83.22	85.41

綜上所述，儘管 RoBERTaLexPT 是基礎規模的模型，但它在法律自然語言處理任務中始終能取得頂尖的效果。在有足夠的預訓練數據的情況下，它可以超越更大規模的模型。這些結果凸顯了領域多樣化的訓練數據比單純的模型規模更為重要。

訓練細節

RoBERTaLexPT-base 在以下語料庫上進行了預訓練：

LegalPT 是一個葡萄牙語法律語料庫，通過聚合多種來源的數據，規模可達 125GiB。
CrawlPT 由三個葡萄牙語通用語料庫組成：brWaC、CC100 PT 子集、OSCAR-2301 PT 子集。

訓練過程

我們使用 Fairseq 庫 v0.10.2 在 DGX - A100 集群上執行預訓練過程，總共使用了 2 塊英偉達 A100 80GB GPU。單個配置的完整訓練大約需要三天時間。

這種計算成本與 BERTimbau-base 的工作相當，在訓練過程中，模型接觸了大約 650 億個標記。

預處理

我們使用 text-dedup 庫中的 MinHash 算法和局部敏感哈希實現對 LegalPT 和 CrawlPT 語料庫的所有子集進行去重，以找出重複文檔的聚類。

為了確保領域模型不受通用詞彙表的限制，我們使用 HuggingFace Tokenizers 的 BPE 算法為每個預訓練語料庫訓練了一個詞彙表。

訓練超參數

預訓練過程包括對模型進行 62,500 步的訓練，批量大小為 2048，學習率為 4e - 4，每個序列最多包含 512 個標記。權重初始化是隨機的。我們採用掩碼語言建模目標，隨機屏蔽 15% 的輸入標記。優化使用 AdamW 優化器，採用線性預熱和線性衰減的學習率調度。

對於其他參數，我們採用了標準的 RoBERTa-base 超參數：

超參數	RoBERTa-base
層數	12
隱藏層大小	768
前饋網絡內部隱藏層大小	3072
注意力頭數量	12
注意力頭大小	64
丟棄率	0.1
注意力丟棄率	0.1
預熱步數	6k
峰值學習率	4e-4
批量大小	2048
權重衰減	0.01
最大訓練步數	62.5k
學習率衰減	線性
AdamW $$\epsilon$$	1e-6
AdamW $$\beta_1$$	0.9
AdamW $$\beta_2$$	0.98
梯度裁剪	0.0

📄 許可證

本項目採用知識共享署名 4.0 國際公共許可證。

📖 引用

@inproceedings{garcia-etal-2024-robertalexpt,
    title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
    author = "Garcia, Eduardo A. S.  and
      Silva, Nadia F. F.  and
      Siqueira, Felipe  and
      Albuquerque, Hidelberg O.  and
      Gomes, Juliana R. S.  and
      Souza, Ellen  and
      Lima, Eliomar A.",
    editor = "Gamallo, Pablo  and
      Claro, Daniela  and
      Teixeira, Ant{\'o}nio  and
      Real, Livy  and
      Garcia, Marcos  and
      Oliveira, Hugo Gon{\c{c}}alo  and
      Amaro, Raquel",
    booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
    month = mar,
    year = "2024",
    address = "Santiago de Compostela, Galicia/Spain",
    publisher = "Association for Computational Lingustics",
    url = "https://aclanthology.org/2024.propor-1.38",
    pages = "374--383",
}