🚀 Legal - HeBERT
Legal - HeBERT是一款适用于希伯来语法律和立法领域的BERT模型。它旨在推动希伯来语法律自然语言处理(NLP)研究以及相关工具的开发。我们发布了两个版本的Legal - HeBERT。第一个版本是基于HeBERT在法律和立法文件上进行微调的模型。第二个版本则是依据HeBERT的架构准则从头开始训练的BERT模型。
我们持续收集法律数据,探索不同的架构设计,并构建标注数据集和开展法律任务,以评估和开发希伯来语法律工具。
✨ 主要特性
- 专为希伯来语法律和立法领域定制的BERT模型。
- 提供微调版和从头训练版两个版本。
- 持续进行数据收集和模型优化。
📦 安装指南
# !pip install transformers==4.14.1
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
model_name = 'avichr/Legal-heBERT_ft'
model_name = 'avichr/Legal-heBERT'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
📚 详细文档
训练数据
我们的训练数据集如下:
属性 |
详情 |
模型类型 |
Legal - HeBERT是适用于希伯来语法律和立法领域的BERT模型,有微调版和从头训练版两个版本。 |
训练数据 |
|
名称 |
希伯来语描述 |
---- |
---- |
以色列法律全书 |
ספר החוקים הישראלי |
最高法院判决书 |
מאגר פסקי הדין של בית המשפט העליון |
拘留法院判决 |
החלטות בתי הדין למשמורת |
已向公众发布征求意见的法律备忘录、二级立法草案和支持测试草案 |
תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור |
土地登记监管判决 |
מאגר פסקי דין של המפקחים על רישום המקרקעין |
劳动法院 - 新冠疫情相关判决 |
מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה |
以色列土地委员会决定 |
החלטות מועצת מקרקעי ישראל |
纪律法庭和以色列警察上诉法庭判决 |
פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל |
卫生部纪律上诉委员会 |
ועדת ערר לדין משמעתי במשרד הבריאות |
总检察长立场文件 |
מאגר התייצבויות היועץ המשפטי לממשלה |
总检察长法律意见 |
מאגר חוות דעת היועץ המשפטי לממשלה |
总计 |
|
我们感谢Yair Gardin提供治理数据,感谢Elhanan Schwarts收集和解析以色列法律全书,感谢Jonathan Schler收集最高法院判决书。
训练过程
- 词汇表大小:50,000个标记
- 4个训练周期(约100万步)
- 学习率:lr = 5e - 5
- 掩码语言模型概率:mlm_probability = 0.15
- 批量大小:每个GPU为32
- 训练硬件:NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090(训练时长1周)
额外训练设置:
微调HeBERT模型: 冻结前八层(如Lee等人 (2019) 所建议)
从头开始训练的Legal - HeBERT: 训练过程与HeBERT类似,并受到Chalkidis等人 (2020) 的启发
🔧 技术细节
我们持续收集法律数据,探索不同的架构设计,并构建标注数据集和开展法律任务,以评估和开发希伯来语法律工具。模型的训练过程涉及特定的参数设置,如词汇表大小、学习率、掩码语言模型概率等,并且在不同的硬件环境下进行训练。同时,微调版模型和从头训练版模型在训练方式上有所不同。
📄 许可证
文档中未提及许可证相关信息。
🔗 引用说明
如果您使用了此模型,请按以下方式引用我们:
Chriqui, Avihay, Yahav, Inbal and Bar - Siman - Tov, Ittai, Legal HeBERT: A BERT - based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 可访问:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127
@article{chriqui2021hebert,
title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
journal={SSRN preprint:4147127},
year={2022}
}
📞 联系我们
Avichay Chriqui,Coller人工智能实验室
Inbal yahav,Coller人工智能实验室
Ittai Bar - Siman - Tov,巴伊兰大学法律、数据科学和数字伦理创新实验室
感谢您的关注,תודה,شكرا