🚀 LEGAL - ROBERTA
LEGAL - ROBERTAは、大規模な法的コーパス(4.6GB)でファインチューニングされたドメイン固有の言語表現モデルです。このモデルは、法的文書の理解や分析に特化しており、法的分野における自然言語処理タスクに有効です。
🚀 クイックスタート
LEGAL - ROBERTAは、大規模な法的コーパスでファインチューニングされたドメイン固有の言語表現モデルです。以下のコードで事前学習済みモデルをロードできます。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("saibo/legal-roberta-base")
model = AutoModel.from_pretrained("saibo/legal-roberta-base")
✨ 主な機能
デモ
例1
文:'This <mask> Agreement is between General Motors and John Murray .'
モデル |
トップ1 |
トップ2 |
トップ3 |
トップ4 |
トップ5 |
Bert |
new |
current |
proposed |
marketing |
joint |
legalBert |
settlement |
letter |
dealer |
master |
supplemental |
legalRoberta |
License |
Settlement |
Contract |
license |
Trust |
LegalRobertaは事例を捉えることができます
例2
文:'The applicant submitted that her husband was subjected to treatment amounting to <mask> whilst in the custody of Adana Security Directorate'
モデル |
トップ1 |
トップ2 |
トップ3 |
トップ4 |
トップ5 |
Bert |
torture |
rape |
abuse |
death |
violence |
legalBert |
torture |
detention |
arrest |
rape |
death |
legalRoberta |
torture |
abuse |
insanity |
cruelty |
confinement |
例3
文:'Establishing a system for the identification and registration of <mask> animals and regarding the labeling of beef and beef products .'
モデル |
トップ1 |
トップ2 |
トップ3 |
トップ4 |
トップ5 |
Bert |
farm |
livestock |
draft |
domestic |
wild |
legalBert |
live |
beef |
farm |
pet |
dairy |
legalRoberta |
domestic |
all |
beef |
wild |
registered |
📦 インストール
事前学習済みモデルをロードするには、以下のコードを使用します。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("saibo/legal-roberta-base")
model = AutoModel.from_pretrained("saibo/legal-roberta-base")
📚 ドキュメント
学習データ
学習データは3つのソースから構成されています。
-
特許訴訟 (https://www.kaggle.com/uspto/patent - litigations): このデータセットは、52年間にわたる74,000以上のケースと500万以上の関連文書をカバーしています。5つの異なるファイルが、訴訟当事者、彼らの弁護士、結果、場所、および日付を詳細に記述しています。
- 1.57GB
- 略称:PL
- クリーンデータ 1.1GB
-
判例法アクセスプロジェクト (CAP) (https://case.law/): 360年にわたる米国の判例法に従い、判例法アクセスプロジェクト(CAP)のAPIとバルクデータサービスには、4000万ページの米国の裁判所判決とほぼ650万の個別ケースが含まれています。
- 生データ 5.6GB
- 略称:CAP
- クリーンデータ 2.8GB
-
Google特許公開データ (https://www.kaggle.com/bigquery/patents): Google特許公開データには、国際特許システムの実証分析のための公開アクセス可能な接続されたデータベーステーブルのコレクションが含まれています。
- BigQuery (https://www.kaggle.com/sohier/beyond - queries - exploring - the - bigquery - api)
- 略称:GPPD(1.1GB, patents - public - data.uspto_oce_litigation.documents)
- クリーンデータ 1GB
学習手順
事前学習済みのROBERTA - BASEモデルから始め、法的コーパスでファインチューニングします。
ファインチューニングの設定:
- 学習率 (lr) = 5e - 5(学習率減衰あり、最終的に4.95e - 8)
- エポック数 (num_epoch) = 3
- 総ステップ数 (Total steps) = 446500
- 総浮動小数点演算回数 (Total_flos) = 2.7365e18
損失は1.850から始まり、0.880で終わります。法的コーパスでファインチューニングした後の困惑度は2.2735です。
デバイス:
2*GeForce GTX TITAN X コンピュートキャパビリティ: 5.2
評価結果
モデルは2つの下流タスクでベンチマークされました:法的テキストのマルチラベル分類と法的事例記述によるキャッチフレーズ検索。
- LMTC(法的マルチラベルテキスト分類)
データセット:
ラベルの形状: 4271
頻出ラベル: 739
少数ラベル: 3369
ゼロラベル: 163
ハイパーパラメータ:
- 学習率 (lr): 1e - 05
- バッチサイズ (batch_size): 4
- 最大シーケンスサイズ (max_sequence_size): 512
- 最大ラベルサイズ (max_label_size): 15
- 少数ラベルの閾値 (few_threshold): 50
- エポック数 (epochs): 10
- ドロップアウト (dropout): 0.1
- 早期終了 (early stop): 有り
- 忍耐度 (patience): 3
制限事項
マスク付き言語モデルのデモでは、トークンには接頭辞 Ġ が付いています。これは少し奇妙に見えますが、まだ修正できていません。私は、BPEトークナイザー(ROBERTAのトークナイザー)の場合、記号 Ġ が新しいトークンの終わりを意味し、事前学習されたトークナイザーの語彙の大部分のトークンが Ġ で始まることを知っています。
例えば
import transformers
tokenizer = transformers.RobertaTokenizer.from_pretrained('roberta-base')
print(tokenizer.tokenize('I love salad'))
出力:
['I', 'Ġlove', 'Ġsalad']
LegalRoBERTaの事前学習は、利用可能な法的コーパスのサイズに制限されており、事前学習ステップの数は一般的なドメイン適応モデルと比較して少ないです。このため、LegalRoBERTaは著しく 学習不足 です。
📄 ライセンス
このプロジェクトはApache - 2.0ライセンスの下で提供されています。