🚀 Legal - HeBERT
Legal - HeBERTは、ヘブライ語の法的および立法分野向けのBERTモデルです。このモデルは、ヘブライ語の法的自然言語処理(NLP)の研究とツール開発を向上させることを目的としています。Legal - HeBERTには2つのバージョンをリリースしています。最初のバージョンは、HeBERTを法的および立法文書に適用して微調整したモデルです。2番目のバージョンは、HeBERTのアーキテクチャガイドラインを使用して、ゼロからBERTモデルを訓練したものです。
現在も法的データの収集、様々なアーキテクチャ設計の検討、タグ付きデータセットの作成や法的タスクの実行を通じて、ヘブライ語の法的ツールの評価と開発を行っています。
✨ 主な機能
- ヘブライ語の法的および立法文書に特化したBERTモデルを提供。
- 2種類のバージョン(HeBERTの微調整版とゼロから訓練した版)を用意。
- 法的NLPの研究とツール開発の向上に貢献。
📦 インストール
# !pip install transformers==4.14.1
📚 ドキュメント
トレーニングデータ
トレーニングデータセットは以下の通りです。
プロパティ |
詳細 |
モデルタイプ |
Legal - HeBERTは、ヘブライ語の法的および立法分野向けのBERTモデルです。 |
トレーニングデータ |
以下のデータセットを使用してトレーニングされています。 |
名前 |
ヘブライ語の説明 |
サイズ (GB) |
文書数 |
文数 |
単語数 |
備考 |
The Israeli Law Book |
ספר החוקים הישראלי |
0.05 |
2338 |
293352 |
4851063 |
|
Judgments of the Supreme Court |
מאגר פסקי הדין של בית המשפט העליון |
0.7 |
212348 |
5790138 |
79672415 |
|
custody courts |
החלטות בתי הדין למשמורת |
2.46 |
169,708 |
8,555,893 |
213,050,492 |
|
Law memoranda, drafts of secondary legislation and drafts of support tests that have been distributed to the public for comment |
תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור |
0.4 |
3,291 |
294,752 |
7,218,960 |
|
Supervisors of Land Registration judgments |
מאגר פסקי דין של המפקחים על רישום המקרקעין |
0.02 |
559 |
67,639 |
1,785,446 |
|
Decisions of the Labor Court - Corona |
מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה |
0.001 |
146 |
3505 |
60195 |
|
Decisions of the Israel Lands Council |
החלטות מועצת מקרקעי ישראל |
|
118 |
11283 |
162692 |
集約ファイル |
Judgments of the Disciplinary Tribunal and the Israel Police Appeals Tribunal |
פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל |
0.02 |
54 |
83724 |
1743419 |
集約ファイル |
Disciplinary Appeals Committee in the Ministry of Health |
ועדת ערר לדין משמעתי במשרד הבריאות |
0.004 |
252 |
21010 |
429807 |
465ファイルはスキャンされましたが解析できませんでした |
Attorney General's Positions |
מאגר התייצבויות היועץ המשפטי לממשלה |
0.008 |
281 |
32724 |
813877 |
|
Legal - Opinion of the Attorney General |
מאגר חוות דעת היועץ המשפטי לממשלה |
0.002 |
44 |
7132 |
188053 |
|
|
|
|
|
|
|
|
合計 |
|
3.665 |
389,139 |
15,161,152 |
309,976,419 |
|
ここでは、ガバナンスデータの提供に協力してくれたYair Gardin氏、イスラエルの法律書の収集と解析を行ってくれたElhanan Schwarts氏、最高裁判所の判決を収集してくれたJonathan Schler氏に感謝いたします。
トレーニングプロセス
- 語彙サイズ: 50,000トークン
- 4エポック (100万ステップ±)
- lr = 5e - 5
- mlm_probability = 0.15
- バッチサイズ = 32 (各GPU)
- NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090を使用して1週間トレーニング
追加のトレーニング設定:
微調整したHeBERTモデル: 最初の8層は固定(Lee et al. (2019)の提案通り)
ゼロから訓練したLegal - HeBERT: トレーニングプロセスはHeBERTに似ており、Chalkidis et al. (2020)にインスパイアされています。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
model_name = 'avichr/Legal-heBERT_ft'
model_name = 'avichr/Legal-heBERT'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
🔧 技術詳細
- モデルは、ヘブライ語の法的および立法文書に特化して設計されています。
- トレーニングには、様々な法的文書データセットを使用しています。
- トレーニングプロセスでは、特定のハイパーパラメータ(語彙サイズ、エポック数、学習率など)を設定しています。
📄 ライセンス
このモデルを使用した場合は、以下のように引用してください。
Chriqui, Avihay, Yahav, Inbal and Bar - Siman - Tov, Ittai, Legal HeBERT: A BERT - based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). Available at: https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4147127
@article{chriqui2021hebert,
title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
journal={SSRN preprint:4147127},
year={2022}
}
📞 お問い合わせ
Avichay Chriqui, The Coller AI Lab
Inbal yahav, The Coller AI Lab
[Ittai Bar - Siman - Tov](mailto:Ittai.Bar - Siman - Tov@biu.ac.il), the BIU Innovation Lab for Law, Data - Science and Digital Ethics
ありがとうございます、תודה、شكرا