🚀 LEGAL-BERT:法学院走出的法律专家
LEGAL-BERTは、法律分野を対象とした一連のBERTモデルです。法律自然言語処理研究、計算法学、および法律テクノロジーアプリケーションをサポートすることを目的としています。異なるバージョンのLEGAL-BERTを事前学習するために、立法、裁判例、契約などの多様な分野をカバーする12GBの英語の法律テキストを公開リソースから収集しました。特定のサブ分野(契約、EU法、欧州人権条約など)に最適化されたサブモデルや汎用のLEGAL-BERTは、特定のタスクで元のBERTよりも優れた性能を発揮します。このモデルは、米国の契約テキストを使って事前学習されたサブ分野のバリエーションです。

I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. AletrasとI. Androutsopoulosによる論文「LEGAL-BERT: The Muppets straight out of Law School」は、2020年にオンラインで開催された自然言語処理実証方法会議(EMNLP 2020)の短編論文集に収録されています。(https://aclanthology.org/2020.findings-emnlp.261)
🚀 クイックスタート
このモデルは法律分野の自然言語処理タスクに使用できます。以下のセクションでは、モデルの詳細や使用方法について説明します。
✨ 主な機能
- 法律分野の自然言語処理タスクをサポート
- 特定のサブ分野に最適化されたサブモデルを提供
- 汎用のLEGAL-BERTモデルも利用可能
📦 インストール
このモデルはHugging FaceのTransformersライブラリを通じて利用できます。以下のコマンドでライブラリをインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-uncased-contracts")
model = AutoModel.from_pretrained("nlpaueb/bert-base-uncased-contracts")
📚 ドキュメント
🔍 事前学習コーパス
LEGAL-BERTの事前学習コーパスは以下のものを含みます:
- 欧州連合の法律データベースEURLEX(http://eur-lex.europa.eu)からの116,062件のEU立法文書;
- 英国の立法ポータル(http://www.legislation.gov.uk)から公開されている61,826件の英国立法文書;
- 欧州裁判所(ECJ)の19,867件の判例(EURLEXから取得);
- 欧州人権裁判所(ECHR)のデータベースHUDOC(http://hudoc.echr.coe.int/eng)からの12,554件の判例;
- 米国判例アクセスプロジェクト(https://case.law)からの164,141件の米国各地の裁判所の判例;
- 米国証券取引委員会(SEC)のEDGARデータベース(https://www.sec.gov/edgar.shtml)からの76,366件の米国の契約書。
🔧 事前学習の詳細
- GoogleのBERT公式コードベース(https://github.com/google-research/bert)を使用して学習;
- 英語のBERT-BASEと同じ構造(12層/768隠れ層/12ヘッドの注意機構/1.1億パラメータ)のモデルを公開;
- 学習設定:100万ステップ、256個の長さ512のシーケンスのバッチ、初期学習率1e-4;
- Google Cloud TPU v3-8(TensorFlow研究クラウドプログラムによって無料で提供される)とGCPの研究クレジットを利用して学習。
📋 モデルリスト
モデル名 |
モデルパス |
学習コーパス |
CONTRACTS-BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
米国の契約書 |
EURLEX-BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
EUの立法文書 |
ECHR-BERT-BASE |
nlpaueb/bert-base-uncased-echr |
欧州人権裁判所の判例 |
LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
全分野 |
LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
全分野 |
*注:LEGAL-BERT-BASEは論文のLEGAL-BERT-SCで、法律コーパスで学習された新しい語彙モデルです。
🔎 下流タスクの評価
下流タスクの評価については、論文「LEGAL-BERT: The Muppets straight out of Law School」(Chalkidis et al., 2020)の実験設計を参考にしてください。
📖 著者と文献
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and Fergadiotis, Manos and Malakasiotis, Prodromos and Aletras, Nikolaos and Androutsopoulos, Ion",
booktitle = "Findings of EMNLP 2020",
year = "2020",
publisher = "ACL",
doi = "10.18653/v1/2020.findings-emnlp.261"
}
👥 私たちについて
アテネ経済大学自然言語処理グループは、自然言語処理技術の開発に特化しています。現在の研究分野は以下の通りです:
- データベース、ドキュメントセット、およびウェブに対する質問応答システム(特に生物医学分野に重点を置く);
- データベースに基づくオントロジーの自然言語生成;
- テキスト分類(スパム/違反コンテンツのフィルタリングを含む);
- 情報抽出とセンチメント分析(法律テキスト分析と感情マイニングを含む);
- ギリシャ語のNLPツール開発;
- NLPにおけるディープラーニングの応用。
Ilias Chalkidis 代表 AUEB自然言語処理グループ
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |
📄 ライセンス
このモデルはCC-BY-SA-4.0ライセンスの下で提供されています。