🚀 InCaseLawBERT
論文「Pre-training Transformers on Indian Legal Text の InCaseLawBERT モデルのモデルファイルとトークナイザーファイルです。」
🚀 クイックスタート
このドキュメントでは、InCaseLawBERTモデルについて詳しく説明します。このモデルは、インドの法的テキストに特化して事前学習されたもので、法的分野の様々なタスクに利用できます。
✨ 主な機能
- インドの法的テキストに対する事前学習が行われている。
- マスク言語モデリング(MLM)と次文予測(NSP)タスクで訓練されている。
- 法的文書のエンベディングや表現を取得するのに利用できる。
📦 インストール
このモデルは、Hugging FaceのTransformersライブラリを通じて利用できます。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 ドキュメント
訓練データ
インドの法的テキストの事前学習コーパスを構築するために、インド最高裁判所や多くの高等裁判所の判例文書の大規模なコーパスを収集しました。データセット内の裁判例は1950年から2019年までのもので、民事、刑事、憲法などすべての法的分野に属しています。合計で、データセットには約540万件のインドの法的文書(すべて英語)が含まれています。生テキストコーパスのサイズは約27GBです。
訓練設定
このモデルは、論文「When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings」の Legal-BERTモデル で初期化されています。この作業では、このモデルをCaseLawBERTと呼び、再訓練したモデルをInCaseLawBERTと呼んでいます。さらに、このモデルをマスク言語モデリング(MLM)と次文予測(NSP)タスクで30万ステップ訓練しました。
モデル概要
このモデルは、CaseLawBERT と同じトークナイザーを使用しています。また、bert-base-uncasedモデル と同じ構成を持っています。
- 12個の隠れ層
- 768の隠れ次元数
- 12個のアテンションヘッド
- 約1億1000万個のパラメータ
微調整結果
すべての事前学習モデルを、インドのデータセットを使用した3つの法的タスクで微調整しました。
- 法規識別 (ILSIデータセット)[マルチラベルテキスト分類]:裁判例の事実に基づいて関連する法規(法律条文)を識別する。
- 意味的セグメンテーション (ISSデータセット)[文タグ付け]:文書を事実、主張などの7つの機能的部分(意味的セグメント)に分割する。
- 裁判判断予測 (ILDCデータセット)[二値テキスト分類]:裁判例の主張/申立が受理/却下されるかを予測する。
InCaseLawBERTは、3つのタスクでCaseLawBERTに近い性能を発揮しますが、InLegalBERT ほど良い結果は得られません。詳細については、論文 を参照してください。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
🔗 引用
@inproceedings{paul-2022-pretraining,
url = {https://arxiv.org/abs/2209.06049},
author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
year = {2023},
}
🙋♀️ 私たちについて
私たちは、インド工科大学カラグプル校のコンピュータサイエンスと技術学部の研究者グループです。主な研究分野は、法的分野における機械学習と自然言語処理の応用で、特にインドの法的シナリオにおける課題と機会に焦点を当てています。現在、いくつかの法的タスクに取り組んでいます。
- 固有表現認識、法的文書の要約
- 法的文書の意味的セグメンテーション
- 事実からの法規識別、裁判判断予測
- 法的文書のマッチング
公開されているコードやデータセットは、こちら で確認できます。