InCaseLawBERT开源法律AI模型 - 免费处理印度法律自然语言任务

首页

Incaselawbert

由 law-ai 开发

InCaseLawBERT 是基于印度法律文本预训练的 BERT 模型，专注于处理印度法律相关的自然语言处理任务。

大型语言模型

Transformers

英语开源协议:MIT #印度法律文本 #法律NLP #多任务预训练

下载量 546

发布时间 : 9/11/2022

模型简介

该模型以 Legal-BERT 为基础进行初始化，并在印度法律文本上进行了进一步的预训练，适用于法律领域的文本理解和预测任务。

模型特点

专业领域适配

基于印度法律文本进行预训练，能更好地处理印度法律相关的自然语言处理任务。

模型初始化优势

以 Legal-BERT 模型为基础进行初始化，继承了其在法律领域的预训练优势。

多任务训练

在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任务上进行训练，提升了模型的语言理解和预测能力。

模型能力

法律文本理解

法律文本分类

法律文本语义分割

法律判决预测

使用案例

法律文本处理

法律法规识别

根据法院案件的事实识别相关法规（法律条文）。

在 ILSI 数据集上表现接近 CaseLawBERT。

语义分割

将文档分割为 7 个功能部分（语义段），如事实、论点等。

在 ISS 数据集上表现接近 CaseLawBERT。

法院判决预测

预测法院案件的索赔/请愿是否会被接受/拒绝。

在 ILDC 数据集上表现接近 CaseLawBERT。

🚀 InCaseLawBERT

InCaseLawBERT 是基于论文 Pre-training Transformers on Indian Legal Text 所提出的模型，本仓库包含该模型及其分词器文件。该模型聚焦于印度法律文本，为法律领域的自然语言处理任务提供了有力支持。

✨ 主要特性

专业领域适配：基于印度法律文本进行预训练，能更好地处理印度法律相关的自然语言处理任务。
模型初始化优势：以 Legal-BERT 模型为基础进行初始化，继承了其在法律领域的预训练优势。
多任务训练：在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任务上进行训练，提升了模型的语言理解和预测能力。

📦 安装指南

暂未提及具体安装命令，跳过该章节。

💻 使用示例

基础用法

使用该模型获取一段文本的嵌入表示：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state

📚 详细文档

训练数据

为构建印度法律文本的预训练语料库，我们从印度最高法院和许多高等法院收集了大量的案例文档。数据集中的法院案例时间跨度从 1950 年到 2019 年，涵盖了所有法律领域，如民事、刑事、宪法等。总体而言，我们的数据集包含约 540 万份印度法律文件（均为英文），原始文本语料库大小约为 27 GB。

训练设置

该模型以论文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT 模型进行初始化。在我们的工作中，将这个模型称为 CaseLawBERT，而重新训练后的模型称为 InCaseLawBERT。我们在自己的数据上对该模型进行了 30 万步的训练，任务包括 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。