🚀 LEGAL-BERT: 法科大学院を卒業したマッペットたち
LEGAL-BERTは、法的ドメイン向けのBERTモデル群です。法的自然言語処理研究、コンピュータ法、および法的テクノロジーアプリケーションを支援することを目的としています。LEGAL-BERTのさまざまなバリエーションを事前学習するために、公開されているリソースからいくつかの分野(例えば、法律、裁判例、契約書)の多様な英語の法的テキスト12GBを収集しました。サブドメインバリアント(CONTRACTS-、EURLEX-、ECHR-)および/または汎用のLEGAL-BERTは、ドメイン固有のタスクにおいて、そのまま使うBERTよりも優れた性能を発揮します。
これは、法的データでゼロから事前学習されたBERT-BASEの軽量版(BERT-BASEの33%のサイズ)で、大規模なモデルと同等の性能を達成しながら、はるかに効率的(約4倍高速)で、環境への影響も小さくなっています。

I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras and I. Androutsopoulos. "LEGAL-BERT: The Muppets straight out of Law School". In Findings of Empirical Methods in Natural Language Processing (EMNLP 2020) (Short Papers), to be held online, 2020. (https://aclanthology.org/2020.findings-emnlp.261)
🚀 クイックスタート
このセクションでは、LEGAL-BERTの基本的な使い方を紹介します。
事前学習済みモデルの読み込み
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-small-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-small-uncased")
✨ 主な機能
- 法的ドメイン向け:法的テキストに特化した事前学習を行っているため、法的NLPタスクに適しています。
- 軽量版:BERT-BASEの33%のサイズで、高速かつ省リソースで動作します。
- 多様なバリエーション:サブドメインバリアント(CONTRACTS-、EURLEX-、ECHR-)や汎用のLEGAL-BERTが用意されています。
📦 インストール
事前学習済みモデルを使用するためには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-small-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-small-uncased")
input_text = "This is a legal text."
inputs = tokenizer(input_text, return_tensors='pt')
outputs = model(**inputs)
高度な使用法
from transformers import pipeline
unmasker = pipeline('fill-mask', model='nlpaueb/legal-bert-small-uncased')
result = unmasker("The applicant submitted that her husband was subjected to treatment amounting to [MASK] whilst in the custody of police.")
print(result)
📚 ドキュメント
事前学習コーパス
LEGAL-BERTの事前学習コーパスには以下のものが含まれます。
- 116,062件のEU法律文書(EURLEX(http://eur-lex.europa.eu)から公開されています)
- 61,826件の英国法律文書(英国法律ポータル(http://www.legislation.gov.uk)から公開されています)
- 19,867件の欧州司法裁判所(ECJ)の裁判例(EURLEXから入手可能)
- 12,554件の欧州人権裁判所(ECHR)の裁判例(HUDOC(http://hudoc.echr.coe.int/eng)から入手可能)
- 164,141件の米国各地の裁判所の裁判例(Case Law Access Projectポータル(https://case.law)にホストされています)
- 76,366件の米国の契約書(EDGAR(https://www.sec.gov/edgar.shtml)から入手可能)
事前学習の詳細
- Google BERTのGitHubリポジトリ(https://github.com/google-research/bert)に提供されている公式コードを使用してBERTを学習させました。
- 英語のBERT-BASEモデル(12層、768隠れ層、12ヘッド、1億1000万パラメータ)と同様のモデルをリリースしました。
- 同じ学習設定を選択しました:バッチサイズ256、シーケンス長512で100万ステップの学習を行い、初期学習率は1e-4としました。
- TensorFlow Research Cloud (TFRC)から無料で提供された単一のGoogle Cloud TPU v3-8を使用することができ、GCP research creditsも活用しました。両方のGoogleプログラムに大きな感謝を申し上げます!
モデル一覧
モデル名 |
モデルパス |
学習コーパス |
CONTRACTS-BERT-BASE |
nlpaueb/bert-base-uncased-contracts |
米国の契約書 |
EURLEX-BERT-BASE |
nlpaueb/bert-base-uncased-eurlex |
EUの法律 |
ECHR-BERT-BASE |
nlpaueb/bert-base-uncased-echr |
ECHRの裁判例 |
LEGAL-BERT-BASE * |
nlpaueb/legal-bert-base-uncased |
すべて |
LEGAL-BERT-SMALL |
nlpaueb/legal-bert-small-uncased |
すべて |
* LEGAL-BERT-BASEは、Chalkidis et al. (2020)でLEGAL-BERT-SCと呼ばれているモデルです。このモデルは、同じコーパスで学習されたsentence-pieceトークナイザーによって新たに作成された語彙を使用して、以下に述べる法的コーパスでゼロから学習されています。
** 多くの方からLEGAL-BERT-FPモデル(元のBERT-BASEチェックポイントに依存するモデル)に関心が寄せられたため、これらのモデルはArchive.org(https://archive.org/details/legal_bert_fp)で公開されています。これらのモデルは二次的なもので、Chalkidis et al. (2020)の未解決の問題を深く掘り下げたい方にのみ興味がある可能性があります。
下流タスクでの評価
論文 "LEGAL-BERT: The Muppets straight out of Law School"(Chalkidis et al., 2020, https://aclanthology.org/2020.findings-emnlp.261)の実験を参照してください。
🔧 技術詳細
LEGAL-BERTは、法的ドメインに特化したBERTモデルです。法的テキストの多様性を考慮して、様々な法的文書から構成される大規模なコーパスで事前学習されています。これにより、法的NLPタスクにおいて優れた性能を発揮します。軽量版のLEGAL-BERT-SMALLは、モデルサイズを大幅に削減しながらも、大規模なモデルと同等の性能を達成しています。
📄 ライセンス
このモデルはCC BY-SA 4.0ライセンスの下で公開されています。
著者 - 論文情報
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and
Fergadiotis, Manos and
Malakasiotis, Prodromos and
Aletras, Nikolaos and
Androutsopoulos, Ion",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
doi = "10.18653/v1/2020.findings-emnlp.261",
pages = "2898--2904"
}
私たちについて
AUEBの自然言語処理グループは、コンピュータが自然言語テキストを処理および生成できるようにするアルゴリズム、モデル、およびシステムを開発しています。
このグループの現在の研究興味は以下の通りです。
- データベース、オントロジー、文書コレクション、およびウェブの質問応答システム、特にバイオメディカル質問応答
- データベースおよびオントロジーからの自然言語生成、特にセマンティックウェブオントロジー
- テキスト分類、スパムや虐待的コンテンツのフィルタリングを含む
- 情報抽出および意見マイニング、法的テキスト分析および感情分析を含む
- ギリシャ語の自然言語処理ツール、例えばパーサーや固有表現認識器
- 自然言語処理における機械学習、特にディープラーニング
このグループは、アテネ経済大学の情報学部の情報処理研究所の一部です。
Ilias Chalkidis 代表 AUEBの自然言語処理グループ
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |