🚀 RoBERTaLexPT-base
RoBERTaLexPT-base 是一個葡萄牙語掩碼語言模型,它基於 LegalPT 和 CrawlPT 語料庫從頭開始預訓練,採用了與 RoBERTa-base 相同的架構,該架構由 Liu 等人在 2019 年提出。此模型可用於解決葡萄牙語法律領域的語言處理問題,在相關任務中展現出了出色的性能。
✨ 主要特性
- 語言支持:支持葡萄牙語(包括巴西葡萄牙語和葡萄牙本土葡萄牙語)。
- 許可證:採用 知識共享署名 4.0 國際公共許可證。
- 代碼倉庫:https://github.com/eduagarcia/roberta-legal-portuguese
- 相關論文:https://aclanthology.org/2024.propor-1.38/
📚 詳細文檔
評估
該模型在 "PortuLex" 基準測試 上進行了評估,這是一個四任務基準測試,旨在評估葡萄牙語法律領域語言模型的質量和性能。
在 PortuLex 基準測試的測試集上,多個模型的宏 F1 分數(%)如下:
綜上所述,儘管 RoBERTaLexPT 是基礎規模的模型,但它在法律自然語言處理任務中始終能取得頂尖的效果。在有足夠的預訓練數據的情況下,它可以超越更大規模的模型。這些結果凸顯了領域多樣化的訓練數據比單純的模型規模更為重要。
訓練細節
RoBERTaLexPT-base 在以下語料庫上進行了預訓練:
訓練過程
我們使用 Fairseq 庫 v0.10.2 在 DGX - A100 集群上執行預訓練過程,總共使用了 2 塊英偉達 A100 80GB GPU。單個配置的完整訓練大約需要三天時間。
這種計算成本與 BERTimbau-base 的工作相當,在訓練過程中,模型接觸了大約 650 億個標記。
預處理
我們使用 text-dedup 庫中的 MinHash 算法和局部敏感哈希實現對 LegalPT 和 CrawlPT 語料庫的所有子集進行去重,以找出重複文檔的聚類。
為了確保領域模型不受通用詞彙表的限制,我們使用 HuggingFace Tokenizers 的 BPE 算法為每個預訓練語料庫訓練了一個詞彙表。
訓練超參數
預訓練過程包括對模型進行 62,500 步的訓練,批量大小為 2048,學習率為 4e - 4,每個序列最多包含 512 個標記。
權重初始化是隨機的。
我們採用掩碼語言建模目標,隨機屏蔽 15% 的輸入標記。
優化使用 AdamW 優化器,採用線性預熱和線性衰減的學習率調度。
對於其他參數,我們採用了標準的 RoBERTa-base 超參數:
超參數 |
RoBERTa-base |
層數 |
12 |
隱藏層大小 |
768 |
前饋網絡內部隱藏層大小 |
3072 |
注意力頭數量 |
12 |
注意力頭大小 |
64 |
丟棄率 |
0.1 |
注意力丟棄率 |
0.1 |
預熱步數 |
6k |
峰值學習率 |
4e-4 |
批量大小 |
2048 |
權重衰減 |
0.01 |
最大訓練步數 |
62.5k |
學習率衰減 |
線性 |
AdamW $$\epsilon$$ |
1e-6 |
AdamW $$\beta_1$$ |
0.9 |
AdamW $$\beta_2$$ |
0.98 |
梯度裁剪 |
0.0 |
📄 許可證
本項目採用 知識共享署名 4.0 國際公共許可證。
📖 引用
@inproceedings{garcia-etal-2024-robertalexpt,
title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
author = "Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A.",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.38",
pages = "374--383",
}
🙏 致謝
這項工作得到了戈亞斯聯邦大學信息學院(INF - UFG)的人工智能卓越中心(Centro de Excelência em Inteligência Artificial – CEIA)的支持。