🚀 InLegalBERT
論文「Pre-training Transformers on Indian Legal Text の InLegalBERT モデルとトークナイザーファイルです。このモデルはインドの法的テキストに特化しており、法的ドメインのタスクに役立ちます。
🚀 クイックスタート
InLegalBERTは、インドの法的テキストに対して事前学習されたモデルです。以下のセクションでは、モデルの詳細、トレーニングデータ、トレーニング設定、使用方法などについて説明します。
✨ 主な機能
- インドの法的テキストに特化した事前学習モデルです。
- 様々な法的タスク(法規識別、文書のセマンティックセグメンテーション、裁判判断予測など)で高い性能を発揮します。
📦 インストール
このモデルは transformers
ライブラリを通じて使用できます。以下のコードでトークナイザーとモデルをロードできます。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 ドキュメント
トレーニングデータ
インドの法的テキストの事前学習コーパスを構築するために、インド最高裁判所や多くの高等裁判所から大量の訴訟文書を収集しました。データセット内の裁判事例は1950年から2019年までのもので、民事、刑事、憲法などすべての法的ドメインに属しています。合計で、データセットには約540万件のインドの法的文書(すべて英語)が含まれています。生テキストコーパスのサイズは約27GBです。
トレーニング設定
このモデルは、論文「LEGAL-BERT: The Muppets straight out of Law School」の LEGAL-BERT-SCモデル で初期化されています。この作業では、このモデルをLegalBERTと呼び、再学習したモデルをInLegalBERTと呼びます。このモデルを、Masked Language Modeling (MLM) とNext Sentence Prediction (NSP) タスクで30万ステップのデータでさらに学習させました。
モデル概要
このモデルは LegalBERT と同じトークナイザーを使用しています。また、bert-base-uncasedモデル と同じ設定を持っています。
- 12個の隠れ層
- 768の隠れ次元
- 12個のアテンションヘッド
- 約1億1000万のパラメータ
微調整結果
すべての事前学習モデルを、インドのデータセットを使用した3つの法的タスクで微調整しました。
- 法規識別 (ILSIデータセット) [マルチラベルテキスト分類]: 裁判事例の事実に基づいて関連する法規(法条)を識別します。
- セマンティックセグメンテーション (ISSデータセット) [文タグ付け]: 文書を事実、主張などの7つの機能的な部分(セマンティックセグメント)に分割します。
- 裁判判断予測 (ILDCデータセット) [バイナリテキスト分類]: 裁判事例の主張/申立が受理されるか拒否されるかを予測します。
InLegalBERTは、これら3つのタスクすべてでLegalBERTや他のすべてのベースライン/バリアントを上回っています。詳細については、論文 を参照してください。
引用
@inproceedings{paul-2022-pretraining,
url = {https://arxiv.org/abs/2209.06049},
author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
year = {2023},
}
私たちについて
私たちは、インド工科大学カラグプル校のコンピュータサイエンスと技術学部の研究者グループです。主な研究関心は、法的ドメインにおける機械学習と自然言語処理のアプリケーションであり、特にインドの法的シナリオにおける課題と機会に焦点を当てています。現在、以下のようないくつかの法的タスクに取り組んでいます。
- 固有表現認識、法的文書の要約
- 法的文書のセマンティックセグメンテーション
- 事実からの法規識別、裁判判断予測
- 法的文書のマッチング
公開されているコードとデータセットは こちら で見ることができます。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。