🚀 InCaseLawBERT
InCaseLawBERT 是基於論文 Pre-training Transformers on Indian Legal Text 所提出的模型,本倉庫包含該模型及其分詞器文件。該模型聚焦於印度法律文本,為法律領域的自然語言處理任務提供了有力支持。
✨ 主要特性
- 專業領域適配:基於印度法律文本進行預訓練,能更好地處理印度法律相關的自然語言處理任務。
- 模型初始化優勢:以 Legal-BERT 模型為基礎進行初始化,繼承了其在法律領域的預訓練優勢。
- 多任務訓練:在 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 任務上進行訓練,提升了模型的語言理解和預測能力。
📦 安裝指南
暫未提及具體安裝命令,跳過該章節。
💻 使用示例
基礎用法
使用該模型獲取一段文本的嵌入表示:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InCaseLawBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InCaseLawBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 詳細文檔
訓練數據
為構建印度法律文本的預訓練語料庫,我們從印度最高法院和許多高等法院收集了大量的案例文檔。數據集中的法院案例時間跨度從 1950 年到 2019 年,涵蓋了所有法律領域,如民事、刑事、憲法等。總體而言,我們的數據集包含約 540 萬份印度法律文件(均為英文),原始文本語料庫大小約為 27 GB。
訓練設置
該模型以論文 When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings 中的 Legal-BERT 模型 進行初始化。在我們的工作中,將這個模型稱為 CaseLawBERT,而重新訓練後的模型稱為 InCaseLawBERT。我們在自己的數據上對該模型進行了 30 萬步的訓練,任務包括 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。
模型概述
該模型使用與 CaseLawBERT 相同的分詞器。其配置與 bert-base-uncased 模型 相同,具有 12 個隱藏層、768 維的隱藏維度、12 個注意力頭,約 1.1 億個參數。
微調結果
我們在 3 個印度法律數據集的法律任務上對所有預訓練模型進行了微調:
- 法律法規識別 (ILSI 數據集) [多標籤文本分類]:根據法院案件的事實識別相關法規(法律條文)。
- 語義分割 (ISS 數據集) [句子標註]:將文檔分割為 7 個功能部分(語義段),如事實、論點等。
- 法院判決預測 (ILDC 數據集) [二分類文本分類]:預測法院案件的索賠/請願是否會被接受/拒絕。
InCaseLawBERT 在這三個任務上的表現接近 CaseLawBERT,但不如 InLegalBERT。詳情請參閱我們的 論文。
關於我們
我們是來自印度卡拉格普爾理工學院計算機科學與技術系的一組研究人員。我們的研究興趣主要集中在法律領域的機器學習和自然語言處理應用,特別關注印度法律場景中的挑戰和機遇。我們目前正在從事多個法律任務的研究,例如:
- 命名實體識別、法律文檔摘要
- 法律文檔的語義分割
- 根據事實進行法律法規識別、法院判決預測
- 法律文檔匹配
你可以在 這裡 找到我們公開的代碼和數據集。
🔧 技術細節
暫未提供具體技術細節,跳過該章節。
📄 許可證
本項目採用 MIT 許可證。