🚀 Legal - HeBERT
Legal - HeBERT是一款適用於希伯來語法律和立法領域的BERT模型。它旨在推動希伯來語法律自然語言處理(NLP)研究以及相關工具的開發。我們發佈了兩個版本的Legal - HeBERT。第一個版本是基於HeBERT在法律和立法文件上進行微調的模型。第二個版本則是依據HeBERT的架構準則從頭開始訓練的BERT模型。
我們持續收集法律數據,探索不同的架構設計,並構建標註數據集和開展法律任務,以評估和開發希伯來語法律工具。
✨ 主要特性
- 專為希伯來語法律和立法領域定製的BERT模型。
- 提供微調版和從頭訓練版兩個版本。
- 持續進行數據收集和模型優化。
📦 安裝指南
# !pip install transformers==4.14.1
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
model_name = 'avichr/Legal-heBERT_ft'
model_name = 'avichr/Legal-heBERT'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
📚 詳細文檔
訓練數據
我們的訓練數據集如下:
屬性 |
詳情 |
模型類型 |
Legal - HeBERT是適用於希伯來語法律和立法領域的BERT模型,有微調版和從頭訓練版兩個版本。 |
訓練數據 |
|
名稱 |
希伯來語描述 |
---- |
---- |
以色列法律全書 |
ספר החוקים הישראלי |
最高法院判決書 |
מאגר פסקי הדין של בית המשפט העליון |
拘留法院判決 |
החלטות בתי הדין למשמורת |
已向公眾發佈徵求意見的法律備忘錄、二級立法草案和支持測試草案 |
תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור |
土地登記監管判決 |
מאגר פסקי דין של המפקחים על רישום המקרקעין |
勞動法院 - 新冠疫情相關判決 |
מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה |
以色列土地委員會決定 |
החלטות מועצת מקרקעי ישראל |
紀律法庭和以色列警察上訴法庭判決 |
פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל |
衛生部紀律上訴委員會 |
ועדת ערר לדין משמעתי במשרד הבריאות |
總檢察長立場文件 |
מאגר התייצבויות היועץ המשפטי לממשלה |
總檢察長法律意見 |
מאגר חוות דעת היועץ המשפטי לממשלה |
總計 |
|
我們感謝Yair Gardin提供治理數據,感謝Elhanan Schwarts收集和解析以色列法律全書,感謝Jonathan Schler收集最高法院判決書。
訓練過程
- 詞彙表大小:50,000個標記
- 4個訓練週期(約100萬步)
- 學習率:lr = 5e - 5
- 掩碼語言模型概率:mlm_probability = 0.15
- 批量大小:每個GPU為32
- 訓練硬件:NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090(訓練時長1周)
額外訓練設置:
微調HeBERT模型: 凍結前八層(如Lee等人 (2019) 所建議)
從頭開始訓練的Legal - HeBERT: 訓練過程與HeBERT類似,並受到Chalkidis等人 (2020) 的啟發
🔧 技術細節
我們持續收集法律數據,探索不同的架構設計,並構建標註數據集和開展法律任務,以評估和開發希伯來語法律工具。模型的訓練過程涉及特定的參數設置,如詞彙表大小、學習率、掩碼語言模型概率等,並且在不同的硬件環境下進行訓練。同時,微調版模型和從頭訓練版模型在訓練方式上有所不同。
📄 許可證
文檔中未提及許可證相關信息。
🔗 引用說明
如果您使用了此模型,請按以下方式引用我們:
Chriqui, Avihay, Yahav, Inbal and Bar - Siman - Tov, Ittai, Legal HeBERT: A BERT - based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 可訪問:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127
@article{chriqui2021hebert,
title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
journal={SSRN preprint:4147127},
year={2022}
}
📞 聯繫我們
Avichay Chriqui,Coller人工智能實驗室
Inbal yahav,Coller人工智能實驗室
Ittai Bar - Siman - Tov,巴伊蘭大學法律、數據科學和數字倫理創新實驗室
感謝您的關注,תודה,شكرا