🚀 LexLM large
このモデルは、RoBERTa large (https://huggingface.co/roberta-large) をLeXFilesコーパス (https://huggingface.co/datasets/lexlms/lex_files) で追加事前学習したものです。
🚀 クイックスタート
LexLM largeは、法的文脈に特化した事前学習済みモデルです。以下のように、法的文書のマスクトークン予測などに使用できます。
✨ 主な機能
LexLM (Base/Large) は新しくリリースされたRoBERTaモデルです。言語モデル開発における一連のベストプラクティスに従っています。
- モデルをLiuら (2019) のオリジナルのRoBERTaチェックポイント (baseまたはlarge) からウォームスタート (初期化) します。
- 50kのBPEを持つ新しいトークナイザーを学習しますが、すべての語彙的に重複するトークンについてはオリジナルの埋め込みを再利用します (Pfeifferら, 2021)。
- それぞれbase/largeモデルについて、多様なLeXFilesコーパスで512サンプルのバッチサイズで100万ステップ追加事前学習し、マスキング率は20/30%とします (Wettigら, 2022)。
- サブコーパス間でトークンの割合が異なり、コーパスごとの容量を維持する (過学習を回避する) ため、Conneauら (2019) に従ってサブコーパスサンプリング率を指数平滑化した文サンプラーを使用します。
- 最近開発された大規模PLMと同様に、大文字小文字を混在させたモデルを考慮します。
📚 ドキュメント
想定される用途と制限
詳細情報は後日提供予定です。
学習と評価データ
このモデルはLeXFilesコーパス (https://huggingface.co/datasets/lexlms/lexfiles) で学習されました。評価結果については、「LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development」 (Chalkidis* ら, 2023) を参照してください。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 0.0001
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- distributed_type: tpu
- num_devices: 8
- gradient_accumulation_steps: 4
- total_train_batch_size: 256
- total_eval_batch_size: 64
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.05
- training_steps: 1000000
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
1.1322 |
0.05 |
50000 |
0.8690 |
1.0137 |
0.1 |
100000 |
0.8053 |
1.0225 |
0.15 |
150000 |
0.7951 |
0.9912 |
0.2 |
200000 |
0.7786 |
0.976 |
0.25 |
250000 |
0.7648 |
0.9594 |
0.3 |
300000 |
0.7550 |
0.9525 |
0.35 |
350000 |
0.7482 |
0.9152 |
0.4 |
400000 |
0.7343 |
0.8944 |
0.45 |
450000 |
0.7245 |
0.893 |
0.5 |
500000 |
0.7216 |
0.8997 |
1.02 |
550000 |
0.6843 |
0.8517 |
1.07 |
600000 |
0.6687 |
0.8544 |
1.12 |
650000 |
0.6624 |
0.8535 |
1.17 |
700000 |
0.6565 |
0.8064 |
1.22 |
750000 |
0.6523 |
0.7953 |
1.27 |
800000 |
0.6462 |
0.8051 |
1.32 |
850000 |
0.6386 |
0.8148 |
1.37 |
900000 |
0.6383 |
0.8004 |
1.42 |
950000 |
0.6408 |
0.8031 |
1.47 |
1000000 |
0.6314 |
フレームワークバージョン
- Transformers 4.20.0
- Pytorch 1.12.0+cu102
- Datasets 2.7.0
- Tokenizers 0.12.0
引用
Ilias Chalkidis*, Nicolas Garneau*, Catalina E.C. Goanta, Daniel Martin Katz, and Anders Søgaard.
LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development.
2022. In the Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada.
@inproceedings{chalkidis-garneau-etal-2023-lexlms,
title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}},
author = "Chalkidis*, Ilias and
Garneau*, Nicolas and
Goanta, Catalina and
Katz, Daniel Martin and
Søgaard, Anders",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics",
month = july,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2305.07507",
}
📄 ライセンス
このモデルはCC BY-SA 4.0ライセンスの下で提供されています。