🚀 カスタム法務用BERT
論文「When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset」のカスタム法務用BERTモデルとトークナイザーのファイルです。
🚀 クイックスタート
このREADMEでは、カスタム法務用BERTモデルについて詳しく説明します。モデルの概要、学習データ、学習目的、使用方法、引用情報などを提供しています。
✨ 主な機能
- 法務分野に特化したBERTモデルで、法的な文章に対する理解能力が高い。
- 独自のドメイン固有の法務用語彙を使用している。
📚 ドキュメント
モデル概要
カスタム法務用BERTモデルのモデルファイルとトークナイザーファイルは、When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset から取得できます。
学習データ
事前学習コーパスは、1965年から現在までのハーバード法学判例コーパス全体を取り込んで構築されました (https://case.law/)。このコーパスのサイズは37GBと相当大きく、すべての連邦および州裁判所の3,446,187件の法的判決を表しており、元々BERTの学習に使用されたBookCorpus/Wikipediaコーパス (15GB) よりも大きいです。
学習目的
このモデルは、MLM (Masked Language Modeling) とNSP (Next Sentence Prediction) の目的で200万ステップ从头开始事前学習されています。トークン化と文分割は法的テキストに適合するように調整されています (論文を参照)。
また、このモデルは独自のドメイン固有の法務用語彙を使用しています。語彙セットは、事前学習コーパスから抽出したサブサンプル (約1300万文) を使って SentencePiece を用いて構築され、トークン数は32,000に固定されています。
使用方法
論文で説明されている分類および多肢選択タスク (Overruling、Terms of Service、CaseHOLD) でカスタム法務用BERTを事前学習損失の計算や微調整をサポートするスクリプトについては、caseholdリポジトリ を参照してください。
引用情報
@inproceedings{zhengguha2021,
title={When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset},
author={Lucia Zheng and Neel Guha and Brandon R. Anderson and Peter Henderson and Daniel E. Ho},
year={2021},
eprint={2104.08671},
archivePrefix={arXiv},
primaryClass={cs.CL},
booktitle={Proceedings of the 18th International Conference on Artificial Intelligence and Law},
publisher={Association for Computing Machinery}
}
Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, and Daniel E. Ho. 2021. When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset. In Proceedings of the 18th International Conference on Artificial Intelligence and Law (ICAIL '21), June 21 - 25, 2021, São Paulo, Brazil. ACM Inc., New York, NY, (in press). arXiv: 2104.08671 [cs.CL].