InCaseLawBERT開源法律AI模型 - 免費處理印度法律自然語言任務

首頁

Incaselawbert

由law-ai開發

InCaseLawBERT 是基於印度法律文本預訓練的 BERT 模型，專注於處理印度法律相關的自然語言處理任務。

大型語言模型

Transformers

英語開源協議:MIT #印度法律文本 #法律NLP #多任務預訓練

下載量 546

發布時間 : 9/11/2022

模型概述

該模型以 Legal-BERT 為基礎進行初始化，並在印度法律文本上進行了進一步的預訓練，適用於法律領域的文本理解和預測任務。

模型特點

專業領域適配

基於印度法律文本進行預訓練，能更好地處理印度法律相關的自然語言處理任務。

模型初始化優勢

以 Legal-BERT 模型為基礎進行初始化，繼承了其在法律領域的預訓練優勢。

多任務訓練

在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任務上進行訓練，提升了模型的語言理解和預測能力。

模型能力

法律文本理解

法律文本分類

法律文本語義分割

法律判決預測

使用案例

法律文本處理

法律法規識別

根據法院案件的事實識別相關法規（法律條文）。

在 ILSI 數據集上表現接近 CaseLawBERT。

語義分割

將文檔分割為 7 個功能部分（語義段），如事實、論點等。

在 ISS 數據集上表現接近 CaseLawBERT。

法院判決預測

預測法院案件的索賠/請願是否會被接受/拒絕。

在 ILDC 數據集上表現接近 CaseLawBERT。

🚀 InCaseLawBERT

InCaseLawBERT 是基於論文 Pre-training Transformers on Indian Legal Text 所提出的模型，本倉庫包含該模型及其分詞器文件。該模型聚焦於印度法律文本，為法律領域的自然語言處理任務提供了有力支持。

✨ 主要特性

專業領域適配：基於印度法律文本進行預訓練，能更好地處理印度法律相關的自然語言處理任務。
模型初始化優勢：以 Legal-BERT 模型為基礎進行初始化，繼承了其在法律領域的預訓練優勢。
多任務訓練：在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任務上進行訓練，提升了模型的語言理解和預測能力。

📦 安裝指南

暫未提及具體安裝命令，跳過該章節。

💻 使用示例

基礎用法

使用該模型獲取一段文本的嵌入表示：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state

📚 詳細文檔

訓練數據

為構建印度法律文本的預訓練語料庫，我們從印度最高法院和許多高等法院收集了大量的案例文檔。數據集中的法院案例時間跨度從 1950 年到 2019 年，涵蓋了所有法律領域，如民事、刑事、憲法等。總體而言，我們的數據集包含約 540 萬份印度法律文件（均為英文），原始文本語料庫大小約為 27 GB。

訓練設置

該模型以論文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT 模型進行初始化。在我們的工作中，將這個模型稱為 CaseLawBERT，而重新訓練後的模型稱為 InCaseLawBERT。我們在自己的數據上對該模型進行了 30 萬步的訓練，任務包括 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。