legal-bert-small-uncasedオープンソースモデル - 軽量かつ効率的な法務分野のテキスト処理支援

ホーム

Legal Bert Small Uncased

nlpauebによって開発

法律分野専用の軽量版BERTモデル、サイズはBERT-BASEの33%のみで、性能を維持しながら効率を大幅に向上

大規模言語モデル英語#法律文書分析 #軽量で効率的 #多法域対応

ダウンロード数 11.99k

リリース時間 : 3/2/2022

モデル概要

法律分野に特化した軽量BERTモデル、法律文書処理に焦点を当て、計算法学や法律テクノロジーアプリケーションに適応

モデル特徴

法律分野最適化

法律文書に特化して訓練され、契約書、立法、判例などの法律文書処理で優れた性能を発揮

効率的で軽量

標準BERTの33%のサイズで、推論速度は約4倍向上、リソース消費も低減

多分野カバー

EU法、英国立法、欧州人権判例、米国契約書など多岐にわたる法律文書を訓練データに含む

モデル能力

法律文書理解

法律用語認識

法律文書分類

法律質問応答システム

契約条項分析

使用事例

法律文書処理

契約条項分析

契約書の重要な条項を自動的に識別・分析

契約タイプと主要条項を正確に予測

判例法分析

裁判例から法的原則と判決根拠を抽出

判例中の法的概念と判決ロジックを効果的に識別

法律コンサルティングサービス

法律質問応答システム

特定の法律分野に関連する質問に回答

正確な法的概念の説明と参照を提供

🚀 LEGAL-BERT: 法科大学院を卒業したマッペットたち

LEGAL-BERTは、法的ドメイン向けのBERTモデル群です。法的自然言語処理研究、コンピュータ法、および法的テクノロジーアプリケーションを支援することを目的としています。LEGAL-BERTのさまざまなバリエーションを事前学習するために、公開されているリソースからいくつかの分野（例えば、法律、裁判例、契約書）の多様な英語の法的テキスト12GBを収集しました。サブドメインバリアント（CONTRACTS-、EURLEX-、ECHR-）および/または汎用のLEGAL-BERTは、ドメイン固有のタスクにおいて、そのまま使うBERTよりも優れた性能を発揮します。これは、法的データでゼロから事前学習されたBERT-BASEの軽量版（BERT-BASEの33％のサイズ）で、大規模なモデルと同等の性能を達成しながら、はるかに効率的（約4倍高速）で、環境への影響も小さくなっています。

LEGAL-BERT

I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras and I. Androutsopoulos. "LEGAL-BERT: The Muppets straight out of Law School". In Findings of Empirical Methods in Natural Language Processing (EMNLP 2020) (Short Papers), to be held online, 2020. (https://aclanthology.org/2020.findings-emnlp.261)

🚀 クイックスタート

このセクションでは、LEGAL-BERTの基本的な使い方を紹介します。

事前学習済みモデルの読み込み

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-small-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-small-uncased")

✨ 主な機能

法的ドメイン向け：法的テキストに特化した事前学習を行っているため、法的NLPタスクに適しています。
軽量版：BERT-BASEの33％のサイズで、高速かつ省リソースで動作します。
多様なバリエーション：サブドメインバリアント（CONTRACTS-、EURLEX-、ECHR-）や汎用のLEGAL-BERTが用意されています。

📦 インストール

事前学習済みモデルを使用するためには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-small-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-small-uncased")

input_text = "This is a legal text."
inputs = tokenizer(input_text, return_tensors='pt')
outputs = model(**inputs)

高度な使用法

# マスク付き言語モデルとして使用する例
from transformers import pipeline

unmasker = pipeline('fill-mask', model='nlpaueb/legal-bert-small-uncased')
result = unmasker("The applicant submitted that her husband was subjected to treatment amounting to [MASK] whilst in the custody of police.")
print(result)

📚 ドキュメント

事前学習コーパス

LEGAL-BERTの事前学習コーパスには以下のものが含まれます。

116,062件のEU法律文書（EURLEX（http://eur-lex.europa.eu）から公開されています）
61,826件の英国法律文書（英国法律ポータル（http://www.legislation.gov.uk）から公開されています）
19,867件の欧州司法裁判所（ECJ）の裁判例（EURLEXから入手可能）
12,554件の欧州人権裁判所（ECHR）の裁判例（HUDOC（http://hudoc.echr.coe.int/eng）から入手可能）
164,141件の米国各地の裁判所の裁判例（Case Law Access Projectポータル（https://case.law）にホストされています）
76,366件の米国の契約書（EDGAR（https://www.sec.gov/edgar.shtml）から入手可能）

事前学習の詳細

Google BERTのGitHubリポジトリ（https://github.com/google-research/bert）に提供されている公式コードを使用してBERTを学習させました。
英語のBERT-BASEモデル（12層、768隠れ層、12ヘッド、1億1000万パラメータ）と同様のモデルをリリースしました。
同じ学習設定を選択しました：バッチサイズ256、シーケンス長512で100万ステップの学習を行い、初期学習率は1e-4としました。
TensorFlow Research Cloud (TFRC)から無料で提供された単一のGoogle Cloud TPU v3-8を使用することができ、GCP research creditsも活用しました。両方のGoogleプログラムに大きな感謝を申し上げます！

モデル一覧

モデル名	モデルパス	学習コーパス
CONTRACTS-BERT-BASE	`nlpaueb/bert-base-uncased-contracts`	米国の契約書
EURLEX-BERT-BASE	`nlpaueb/bert-base-uncased-eurlex`	EUの法律
ECHR-BERT-BASE	`nlpaueb/bert-base-uncased-echr`	ECHRの裁判例
LEGAL-BERT-BASE *	`nlpaueb/legal-bert-base-uncased`	すべて
LEGAL-BERT-SMALL	`nlpaueb/legal-bert-small-uncased`	すべて

* LEGAL-BERT-BASEは、Chalkidis et al. (2020)でLEGAL-BERT-SCと呼ばれているモデルです。このモデルは、同じコーパスで学習されたsentence-pieceトークナイザーによって新たに作成された語彙を使用して、以下に述べる法的コーパスでゼロから学習されています。

** 多くの方からLEGAL-BERT-FPモデル（元のBERT-BASEチェックポイントに依存するモデル）に関心が寄せられたため、これらのモデルはArchive.org（https://archive.org/details/legal_bert_fp）で公開されています。これらのモデルは二次的なもので、Chalkidis et al. (2020)の未解決の問題を深く掘り下げたい方にのみ興味がある可能性があります。

下流タスクでの評価

論文 "LEGAL-BERT: The Muppets straight out of Law School"（Chalkidis et al., 2020, https://aclanthology.org/2020.findings-emnlp.261）の実験を参照してください。

🔧 技術詳細

LEGAL-BERTは、法的ドメインに特化したBERTモデルです。法的テキストの多様性を考慮して、様々な法的文書から構成される大規模なコーパスで事前学習されています。これにより、法的NLPタスクにおいて優れた性能を発揮します。軽量版のLEGAL-BERT-SMALLは、モデルサイズを大幅に削減しながらも、大規模なモデルと同等の性能を達成しています。

📄 ライセンス

このモデルはCC BY-SA 4.0ライセンスの下で公開されています。

著者 - 論文情報

@inproceedings{chalkidis-etal-2020-legal,
    title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
    author = "Chalkidis, Ilias  and
      Fergadiotis, Manos  and
      Malakasiotis, Prodromos  and
      Aletras, Nikolaos  and
      Androutsopoulos, Ion",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    doi = "10.18653/v1/2020.findings-emnlp.261",
    pages = "2898--2904"
}