🚀 InCaseLawBERT
InCaseLawBERT 是基于论文 Pre-training Transformers on Indian Legal Text 所提出的模型,本仓库包含该模型及其分词器文件。该模型聚焦于印度法律文本,为法律领域的自然语言处理任务提供了有力支持。
✨ 主要特性
- 专业领域适配:基于印度法律文本进行预训练,能更好地处理印度法律相关的自然语言处理任务。
- 模型初始化优势:以 Legal-BERT 模型为基础进行初始化,继承了其在法律领域的预训练优势。
- 多任务训练:在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任务上进行训练,提升了模型的语言理解和预测能力。
📦 安装指南
暂未提及具体安装命令,跳过该章节。
💻 使用示例
基础用法
使用该模型获取一段文本的嵌入表示:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 详细文档
训练数据
为构建印度法律文本的预训练语料库,我们从印度最高法院和许多高等法院收集了大量的案例文档。数据集中的法院案例时间跨度从 1950 年到 2019 年,涵盖了所有法律领域,如民事、刑事、宪法等。总体而言,我们的数据集包含约 540 万份印度法律文件(均为英文),原始文本语料库大小约为 27 GB。
训练设置
该模型以论文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT 模型 进行初始化。在我们的工作中,将这个模型称为 CaseLawBERT,而重新训练后的模型称为 InCaseLawBERT。我们在自己的数据上对该模型进行了 30 万步的训练,任务包括 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。
模型概述
该模型使用与 CaseLawBERT 相同的分词器。其配置与 bert-base-uncased 模型 相同,具有 12 个隐藏层、768 维的隐藏维度、12 个注意力头,约 1.1 亿个参数。
微调结果
我们在 3 个印度法律数据集的法律任务上对所有预训练模型进行了微调:
- 法律法规识别 (ILSI 数据集) [多标签文本分类]:根据法院案件的事实识别相关法规(法律条文)。
- 语义分割 (ISS 数据集) [句子标注]:将文档分割为 7 个功能部分(语义段),如事实、论点等。
- 法院判决预测 (ILDC 数据集) [二分类文本分类]:预测法院案件的索赔/请愿是否会被接受/拒绝。
InCaseLawBERT 在这三个任务上的表现接近 CaseLawBERT,但不如 InLegalBERT。详情请参阅我们的 论文。
关于我们
我们是来自印度卡拉格普尔理工学院计算机科学与技术系的一组研究人员。我们的研究兴趣主要集中在法律领域的机器学习和自然语言处理应用,特别关注印度法律场景中的挑战和机遇。我们目前正在从事多个法律任务的研究,例如:
- 命名实体识别、法律文档摘要
- 法律文档的语义分割
- 根据事实进行法律法规识别、法院判决预测
- 法律文档匹配
你可以在 这里 找到我们公开的代码和数据集。
🔧 技术细节
暂未提供具体技术细节,跳过该章节。
📄 许可证
本项目采用 MIT 许可证。