Legal - heBERT_ftオープンソースモデル - ヘブライ語の法律自然言語処理研究とツール開発をサポート

ホーム

Legal Hebert Ft

avichrによって開発

Legal-HeBERTはヘブライ語の法律および立法分野に特化したBERTモデルで、ヘブライ語の法律自然言語処理研究とツール開発を推進することを目的としています。

大規模言語モデル

Transformers

#ヘブライ語法律テキスト処理 #立法文書分析 #司法判決理解

ダウンロード数 48

リリース時間 : 5/5/2022

モデル概要

Legal-HeBERTは2つのバージョンを提供します：1つは法律および立法文書で微調整されたHeBERTモデル、もう1つはHeBERTアーキテクチャに基づいてゼロからトレーニングされたBERTモデルです。このモデルはヘブライ語法律テキスト処理に特化しており、法律分野の自然言語処理タスクをサポートします。

モデル特徴

ヘブライ語法律テキスト最適化

ヘブライ語の法律、司法、立法テキストに特化して最適化されており、より正確な法律テキスト処理能力を提供します。

2種類のトレーニング方法

微調整版とゼロからトレーニング版の2つのモデルを提供し、様々なアプリケーションシナリオのニーズに対応します。

大規模法律データセット

30万件以上の法律文書と3.6GBの法律テキストデータに基づいてトレーニングされています。

継続的な最適化

チームは継続的に法律データを収集し、様々なアーキテクチャ設計を探求し、注釈付きデータセットと法律タスクを通じて評価を行っています。

モデル能力

ヘブライ語法律テキスト理解

法律テキスト分類

法律テキスト生成

法律テキスト質問応答

使用事例

法律研究

法律条文分析

イスラエル法律全書の法律条文を分析し、重要な情報を抽出するために使用されます。

判例研究

最高裁判所の判決文を分析し、判例の要点と法律原則を抽出します。

法律実務

法律文書生成

法律覚書、二次立法草案などの法律文書の生成を支援します。

法律意見書分析

検事総長の法律意見書を分析し、重要な法律観点を抽出します。

🚀 Legal - HeBERT

Legal - HeBERTは、ヘブライ語の法的および立法分野向けのBERTモデルです。このモデルは、ヘブライ語の法的自然言語処理（NLP）の研究とツール開発を向上させることを目的としています。Legal - HeBERTには2つのバージョンをリリースしています。最初のバージョンは、HeBERTを法的および立法文書に適用して微調整したモデルです。2番目のバージョンは、HeBERTのアーキテクチャガイドラインを使用して、ゼロからBERTモデルを訓練したものです。
現在も法的データの収集、様々なアーキテクチャ設計の検討、タグ付きデータセットの作成や法的タスクの実行を通じて、ヘブライ語の法的ツールの評価と開発を行っています。

✨ 主な機能

ヘブライ語の法的および立法文書に特化したBERTモデルを提供。
2種類のバージョン（HeBERTの微調整版とゼロから訓練した版）を用意。
法的NLPの研究とツール開発の向上に貢献。

📦 インストール

# !pip install transformers==4.14.1

📚 ドキュメント

トレーニングデータ

トレーニングデータセットは以下の通りです。

プロパティ	詳細
モデルタイプ	Legal - HeBERTは、ヘブライ語の法的および立法分野向けのBERTモデルです。
トレーニングデータ	以下のデータセットを使用してトレーニングされています。

名前	ヘブライ語の説明	サイズ (GB)	文書数	文数	単語数	備考
The Israeli Law Book	ספר החוקים הישראלי	0.05	2338	293352	4851063
Judgments of the Supreme Court	מאגר פסקי הדין של בית המשפט העליון	0.7	212348	5790138	79672415
custody courts	החלטות בתי הדין למשמורת	2.46	169,708	8,555,893	213,050,492
Law memoranda, drafts of secondary legislation and drafts of support tests that have been distributed to the public for comment	תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור	0.4	3,291	294,752	7,218,960
Supervisors of Land Registration judgments	מאגר פסקי דין של המפקחים על רישום המקרקעין	0.02	559	67,639	1,785,446
Decisions of the Labor Court - Corona	מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה	0.001	146	3505	60195
Decisions of the Israel Lands Council	החלטות מועצת מקרקעי ישראל		118	11283	162692	集約ファイル
Judgments of the Disciplinary Tribunal and the Israel Police Appeals Tribunal	פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל	0.02	54	83724	1743419	集約ファイル
Disciplinary Appeals Committee in the Ministry of Health	ועדת ערר לדין משמעתי במשרד הבריאות	0.004	252	21010	429807	465ファイルはスキャンされましたが解析できませんでした
Attorney General's Positions	מאגר התייצבויות היועץ המשפטי לממשלה	0.008	281	32724	813877
Legal - Opinion of the Attorney General	מאגר חוות דעת היועץ המשפטי לממשלה	0.002	44	7132	188053

合計		3.665	389,139	15,161,152	309,976,419

ここでは、ガバナンスデータの提供に協力してくれたYair Gardin氏、イスラエルの法律書の収集と解析を行ってくれたElhanan Schwarts氏、最高裁判所の判決を収集してくれたJonathan Schler氏に感謝いたします。

トレーニングプロセス

語彙サイズ: 50,000トークン
4エポック (100万ステップ±)
lr = 5e - 5
mlm_probability = 0.15
バッチサイズ = 32 (各GPU)
NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090を使用して1週間トレーニング

追加のトレーニング設定:

微調整したHeBERTモデル: 最初の8層は固定（Lee et al. (2019)の提案通り）
ゼロから訓練したLegal - HeBERT: トレーニングプロセスはHeBERTに似ており、Chalkidis et al. (2020)にインスパイアされています。

💻 使用例

基本的な使用法

# !pip install transformers==4.14.1
from transformers import AutoTokenizer, AutoModel

model_name = 'avichr/Legal-heBERT_ft' # for the fine-tuned HeBERT model 
model_name = 'avichr/Legal-heBERT' # for legal HeBERT model trained from scratch

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

from transformers import pipeline
fill_mask = pipeline(
    "fill-mask",
    model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")

🔧 技術詳細

モデルは、ヘブライ語の法的および立法文書に特化して設計されています。
トレーニングには、様々な法的文書データセットを使用しています。
トレーニングプロセスでは、特定のハイパーパラメータ（語彙サイズ、エポック数、学習率など）を設定しています。

📄 ライセンス

このモデルを使用した場合は、以下のように引用してください。

Chriqui, Avihay, Yahav, Inbal and Bar - Siman - Tov, Ittai, Legal HeBERT: A BERT - based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). Available at: https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4147127

@article{chriqui2021hebert,
  title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
  author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
  journal={SSRN preprint:4147127},
  year={2022}
}

📞 お問い合わせ

Avichay Chriqui, The Coller AI Lab
Inbal yahav, The Coller AI Lab
[Ittai Bar - Siman - Tov](mailto:Ittai.Bar - Siman - Tov@biu.ac.il), the BIU Innovation Lab for Law, Data - Science and Digital Ethics

ありがとうございます、תודה、شكرا