🚀 大型法律語言模型(LexLM large)
LexLM large 是基於 RoBERTa 架構的預訓練語言模型,在法律領域的文本處理上表現出色。它通過在大規模法律語料上繼續預訓練,能夠更好地理解和處理法律相關的文本,為法律信息檢索、合同分析等任務提供有力支持。
🚀 快速開始
此模型是在 RoBERTa large(https://huggingface.co/roberta-large)的基礎上,在 LeXFiles 語料庫(https://huggingface.co/datasets/lexlms/lex_files)上繼續預訓練得到的。
✨ 主要特性
- 基於 RoBERTa 架構:LexLM(基礎版/大型版)是新發布的 RoBERTa 模型,從原始的 RoBERTa 檢查點(基礎版或大型版)進行熱啟動(初始化)。
- 新的分詞器:訓練了一個包含 50k 字節對編碼(BPE)的新分詞器,但重用了所有詞法重疊標記的原始嵌入。
- 持續預訓練:在多樣化的 LeXFiles 語料庫上繼續預訓練模型,基礎版和大型版分別進行額外的 100 萬步訓練,批次大小為 512 個樣本,掩碼率為 20%/30%。
- 句子採樣:使用帶有子語料庫採樣率指數平滑的句子採樣器,以保留每個語料庫的容量並避免過擬合。
- 大小寫混合模型:與最近開發的大型預訓練語言模型類似,採用大小寫混合模型。
📚 詳細文檔
預期用途和限制
更多信息待補充。
訓練和評估數據
該模型在 LeXFiles 語料庫(https://huggingface.co/datasets/lexlms/lexfiles)上進行訓練。有關評估結果,請參考論文 "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development"(Chalkidis* 等人,2023)。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:0.0001
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 分佈式類型:TPU
- 設備數量:8
- 梯度累積步數:4
- 總訓練批次大小:256
- 總評估批次大小:64
- 優化器:Adam,β=(0.9, 0.999),ε=1e - 08
- 學習率調度器類型:餘弦
- 學習率調度器預熱比例:0.05
- 訓練步數:1000000
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
1.1322 |
0.05 |
50000 |
0.8690 |
1.0137 |
0.1 |
100000 |
0.8053 |
1.0225 |
0.15 |
150000 |
0.7951 |
0.9912 |
0.2 |
200000 |
0.7786 |
0.976 |
0.25 |
250000 |
0.7648 |
0.9594 |
0.3 |
300000 |
0.7550 |
0.9525 |
0.35 |
350000 |
0.7482 |
0.9152 |
0.4 |
400000 |
0.7343 |
0.8944 |
0.45 |
450000 |
0.7245 |
0.893 |
0.5 |
500000 |
0.7216 |
0.8997 |
1.02 |
550000 |
0.6843 |
0.8517 |
1.07 |
600000 |
0.6687 |
0.8544 |
1.12 |
650000 |
0.6624 |
0.8535 |
1.17 |
700000 |
0.6565 |
0.8064 |
1.22 |
750000 |
0.6523 |
0.7953 |
1.27 |
800000 |
0.6462 |
0.8051 |
1.32 |
850000 |
0.6386 |
0.8148 |
1.37 |
900000 |
0.6383 |
0.8004 |
1.42 |
950000 |
0.6408 |
0.8031 |
1.47 |
1000000 |
0.6314 |
框架版本
- Transformers 4.20.0
- Pytorch 1.12.0+cu102
- Datasets 2.7.0
- Tokenizers 0.12.0
引用
Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard.
LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development.
2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.
@inproceedings{chalkidis-garneau-etal-2023-lexlms,
title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
author = "Chalkidis*, Ilias and
Garneau*, Nicolas and
Goanta, Catalina and
Katz, Daniel Martin and
Søgaard, Anders",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
month = july,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2305.07507",
}
📄 許可證
本模型遵循知識共享署名 - 相同方式共享 4.0 國際許可協議(CC BY - SA 4.0)。