Legal-heBERT_ft開源模型 - 助力希伯來語法律自然語言處理研究與工具開發

首頁

Legal Hebert Ft

由avichr開發

Legal-HeBERT 是一個面向希伯來語法律及立法領域的 BERT 模型，旨在推動希伯來語法律自然語言處理研究與工具開發。

大型語言模型

Transformers

#希伯來語法律文本處理 #立法文件分析 #司法判決理解

下載量 48

發布時間 : 5/5/2022

模型概述

Legal-HeBERT 提供兩個版本：一個是在法律和立法文件上微調的 HeBERT 模型，另一個是依據 HeBERT 架構從頭訓練的 BERT 模型。該模型專注於希伯來語法律文本處理，支持法律領域的自然語言處理任務。

模型特點

希伯來語法律文本優化

專門針對希伯來語法律、司法和立法文本進行優化，提供更準確的法律文本處理能力。

兩種訓練方式

提供微調版和從頭訓練版兩種模型，滿足不同應用場景的需求。

大規模法律數據集

基於超過 300,000 份法律文檔和 3.6GB 的法律文本數據進行訓練。

持續優化

團隊持續收集法律數據、探索不同架構設計，並通過標註數據集和法律任務進行評估。

模型能力

希伯來語法律文本理解

法律文本分類

法律文本生成

法律文本問答

使用案例

法律研究

法律條文分析

用於分析以色列法律全書中的法律條文，提取關鍵信息。

判例研究

分析最高法院判決書，提取判例要點和法律原則。

法律實務

法律文件生成

輔助生成法律備忘錄、次級立法草案等法律文件。

法律意見書分析

分析總檢察長法律意見書，提取關鍵法律觀點。

🚀 Legal - HeBERT

Legal - HeBERT是一款適用於希伯來語法律和立法領域的BERT模型。它旨在推動希伯來語法律自然語言處理（NLP）研究以及相關工具的開發。我們發佈了兩個版本的Legal - HeBERT。第一個版本是基於HeBERT在法律和立法文件上進行微調的模型。第二個版本則是依據HeBERT的架構準則從頭開始訓練的BERT模型。
我們持續收集法律數據，探索不同的架構設計，並構建標註數據集和開展法律任務，以評估和開發希伯來語法律工具。

✨ 主要特性

專為希伯來語法律和立法領域定製的BERT模型。
提供微調版和從頭訓練版兩個版本。
持續進行數據收集和模型優化。

📦 安裝指南

# !pip install transformers==4.14.1

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

model_name = 'avichr/Legal-heBERT_ft' # 用於微調後的HeBERT模型 
model_name = 'avichr/Legal-heBERT' # 用於從頭開始訓練的法律HeBERT模型

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

from transformers import pipeline
fill_mask = pipeline(
    "fill-mask",
    model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")

📚 詳細文檔

訓練數據

我們的訓練數據集如下：

屬性	詳情
模型類型	Legal - HeBERT是適用於希伯來語法律和立法領域的BERT模型，有微調版和從頭訓練版兩個版本。
訓練數據
名稱	希伯來語描述
----	----
以色列法律全書	ספר החוקים הישראלי
最高法院判決書	מאגר פסקי הדין של בית המשפט העליון
拘留法院判決	החלטות בתי הדין למשמורת
已向公眾發佈徵求意見的法律備忘錄、二級立法草案和支持測試草案	תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור
土地登記監管判決	מאגר פסקי דין של המפקחים על רישום המקרקעין
勞動法院 - 新冠疫情相關判決	מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה
以色列土地委員會決定	החלטות מועצת מקרקעי ישראל
紀律法庭和以色列警察上訴法庭判決	פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל
衛生部紀律上訴委員會	ועדת ערר לדין משמעתי במשרד הבריאות
總檢察長立場文件	מאגר התייצבויות היועץ המשפטי לממשלה
總檢察長法律意見	מאגר חוות דעת היועץ המשפטי לממשלה
總計

我們感謝Yair Gardin提供治理數據，感謝Elhanan Schwarts收集和解析以色列法律全書，感謝Jonathan Schler收集最高法院判決書。

訓練過程

詞彙表大小：50,000個標記
4個訓練週期（約100萬步）
學習率：lr = 5e - 5
掩碼語言模型概率：mlm_probability = 0.15
批量大小：每個GPU為32
訓練硬件：NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090（訓練時長1周）

額外訓練設置：

微調HeBERT模型： 凍結前八層（如Lee等人 (2019) 所建議）
從頭開始訓練的Legal - HeBERT： 訓練過程與HeBERT類似，並受到Chalkidis等人 (2020) 的啟發

🔧 技術細節

我們持續收集法律數據，探索不同的架構設計，並構建標註數據集和開展法律任務，以評估和開發希伯來語法律工具。模型的訓練過程涉及特定的參數設置，如詞彙表大小、學習率、掩碼語言模型概率等，並且在不同的硬件環境下進行訓練。同時，微調版模型和從頭訓練版模型在訓練方式上有所不同。

📄 許可證

文檔中未提及許可證相關信息。

🔗 引用說明

如果您使用了此模型，請按以下方式引用我們： Chriqui, Avihay, Yahav, Inbal and Bar - Siman - Tov, Ittai, Legal HeBERT: A BERT - based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 可訪問：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127

@article{chriqui2021hebert,
  title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
  author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
  journal={SSRN preprint:4147127},
  year={2022}
}