🚀 大型法律语言模型(LexLM large)
LexLM large 是基于 RoBERTa 架构的预训练语言模型,在法律领域的文本处理上表现出色。它通过在大规模法律语料上继续预训练,能够更好地理解和处理法律相关的文本,为法律信息检索、合同分析等任务提供有力支持。
🚀 快速开始
此模型是在 RoBERTa large(https://huggingface.co/roberta-large)的基础上,在 LeXFiles 语料库(https://huggingface.co/datasets/lexlms/lex_files)上继续预训练得到的。
✨ 主要特性
- 基于 RoBERTa 架构:LexLM(基础版/大型版)是新发布的 RoBERTa 模型,从原始的 RoBERTa 检查点(基础版或大型版)进行热启动(初始化)。
- 新的分词器:训练了一个包含 50k 字节对编码(BPE)的新分词器,但重用了所有词法重叠标记的原始嵌入。
- 持续预训练:在多样化的 LeXFiles 语料库上继续预训练模型,基础版和大型版分别进行额外的 100 万步训练,批次大小为 512 个样本,掩码率为 20%/30%。
- 句子采样:使用带有子语料库采样率指数平滑的句子采样器,以保留每个语料库的容量并避免过拟合。
- 大小写混合模型:与最近开发的大型预训练语言模型类似,采用大小写混合模型。
📚 详细文档
预期用途和限制
更多信息待补充。
训练和评估数据
该模型在 LeXFiles 语料库(https://huggingface.co/datasets/lexlms/lexfiles)上进行训练。有关评估结果,请参考论文 "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development"(Chalkidis* 等人,2023)。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:0.0001
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 分布式类型:TPU
- 设备数量:8
- 梯度累积步数:4
- 总训练批次大小:256
- 总评估批次大小:64
- 优化器:Adam,β=(0.9, 0.999),ε=1e - 08
- 学习率调度器类型:余弦
- 学习率调度器预热比例:0.05
- 训练步数:1000000
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.1322 |
0.05 |
50000 |
0.8690 |
1.0137 |
0.1 |
100000 |
0.8053 |
1.0225 |
0.15 |
150000 |
0.7951 |
0.9912 |
0.2 |
200000 |
0.7786 |
0.976 |
0.25 |
250000 |
0.7648 |
0.9594 |
0.3 |
300000 |
0.7550 |
0.9525 |
0.35 |
350000 |
0.7482 |
0.9152 |
0.4 |
400000 |
0.7343 |
0.8944 |
0.45 |
450000 |
0.7245 |
0.893 |
0.5 |
500000 |
0.7216 |
0.8997 |
1.02 |
550000 |
0.6843 |
0.8517 |
1.07 |
600000 |
0.6687 |
0.8544 |
1.12 |
650000 |
0.6624 |
0.8535 |
1.17 |
700000 |
0.6565 |
0.8064 |
1.22 |
750000 |
0.6523 |
0.7953 |
1.27 |
800000 |
0.6462 |
0.8051 |
1.32 |
850000 |
0.6386 |
0.8148 |
1.37 |
900000 |
0.6383 |
0.8004 |
1.42 |
950000 |
0.6408 |
0.8031 |
1.47 |
1000000 |
0.6314 |
框架版本
- Transformers 4.20.0
- Pytorch 1.12.0+cu102
- Datasets 2.7.0
- Tokenizers 0.12.0
引用
Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard.
LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development.
2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.
@inproceedings{chalkidis-garneau-etal-2023-lexlms,
title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
author = "Chalkidis*, Ilias and
Garneau*, Nicolas and
Goanta, Catalina and
Katz, Daniel Martin and
Søgaard, Anders",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
month = july,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2305.07507",
}
📄 许可证
本模型遵循知识共享署名 - 相同方式共享 4.0 国际许可协议(CC BY - SA 4.0)。