🚀 RoBERTaLexPT-base
RoBERTaLexPT-base 是一个葡萄牙语掩码语言模型,它基于 LegalPT 和 CrawlPT 语料库从头开始预训练,采用了与 RoBERTa-base 相同的架构,该架构由 Liu 等人在 2019 年提出。此模型可用于解决葡萄牙语法律领域的语言处理问题,在相关任务中展现出了出色的性能。
✨ 主要特性
- 语言支持:支持葡萄牙语(包括巴西葡萄牙语和葡萄牙本土葡萄牙语)。
- 许可证:采用 知识共享署名 4.0 国际公共许可证。
- 代码仓库:https://github.com/eduagarcia/roberta-legal-portuguese
- 相关论文:https://aclanthology.org/2024.propor-1.38/
📚 详细文档
评估
该模型在 "PortuLex" 基准测试 上进行了评估,这是一个四任务基准测试,旨在评估葡萄牙语法律领域语言模型的质量和性能。
在 PortuLex 基准测试的测试集上,多个模型的宏 F1 分数(%)如下:
综上所述,尽管 RoBERTaLexPT 是基础规模的模型,但它在法律自然语言处理任务中始终能取得顶尖的效果。在有足够的预训练数据的情况下,它可以超越更大规模的模型。这些结果凸显了领域多样化的训练数据比单纯的模型规模更为重要。
训练细节
RoBERTaLexPT-base 在以下语料库上进行了预训练:
训练过程
我们使用 Fairseq 库 v0.10.2 在 DGX - A100 集群上执行预训练过程,总共使用了 2 块英伟达 A100 80GB GPU。单个配置的完整训练大约需要三天时间。
这种计算成本与 BERTimbau-base 的工作相当,在训练过程中,模型接触了大约 650 亿个标记。
预处理
我们使用 text-dedup 库中的 MinHash 算法和局部敏感哈希实现对 LegalPT 和 CrawlPT 语料库的所有子集进行去重,以找出重复文档的聚类。
为了确保领域模型不受通用词汇表的限制,我们使用 HuggingFace Tokenizers 的 BPE 算法为每个预训练语料库训练了一个词汇表。
训练超参数
预训练过程包括对模型进行 62,500 步的训练,批量大小为 2048,学习率为 4e - 4,每个序列最多包含 512 个标记。
权重初始化是随机的。
我们采用掩码语言建模目标,随机屏蔽 15% 的输入标记。
优化使用 AdamW 优化器,采用线性预热和线性衰减的学习率调度。
对于其他参数,我们采用了标准的 RoBERTa-base 超参数:
超参数 |
RoBERTa-base |
层数 |
12 |
隐藏层大小 |
768 |
前馈网络内部隐藏层大小 |
3072 |
注意力头数量 |
12 |
注意力头大小 |
64 |
丢弃率 |
0.1 |
注意力丢弃率 |
0.1 |
预热步数 |
6k |
峰值学习率 |
4e-4 |
批量大小 |
2048 |
权重衰减 |
0.01 |
最大训练步数 |
62.5k |
学习率衰减 |
线性 |
AdamW $$\epsilon$$ |
1e-6 |
AdamW $$\beta_1$$ |
0.9 |
AdamW $$\beta_2$$ |
0.98 |
梯度裁剪 |
0.0 |
📄 许可证
本项目采用 知识共享署名 4.0 国际公共许可证。
📖 引用
@inproceedings{garcia-etal-2024-robertalexpt,
title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
author = "Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A.",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.38",
pages = "374--383",
}
🙏 致谢
这项工作得到了戈亚斯联邦大学信息学院(INF - UFG)的人工智能卓越中心(Centro de Excelência em Inteligência Artificial – CEIA)的支持。