🚀 InLegalBERT
InLegalBERT 是基於印度法律文本預訓練的 Transformer 模型,為法律領域的自然語言處理任務提供了強大支持,能有效處理如法律條文識別、語義分割和法院判決預測等任務。
🚀 快速開始
使用該模型獲取一段文本的嵌入表示:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
✨ 主要特性
- 基於印度法律文本預訓練:使用來自印度最高法院和多個高等法院的大量案例文檔進行預訓練,涵蓋 1950 年至 2019 年的各類法律領域。
- 性能優越:在三項法律任務的微調實驗中,InLegalBERT 擊敗了 LegalBERT 以及其他所有基線模型。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 transformers
庫的安裝方式來使用該模型。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 詳細文檔
訓練數據
為構建印度法律文本的預訓練語料庫,我們從印度最高法院和許多高等法院收集了大量案例文檔。數據集中的法院案例時間跨度從 1950 年到 2019 年,涵蓋所有法律領域,如民事、刑事、憲法等。總體而言,數據集包含約 540 萬份印度法律文件(均為英文),原始文本語料庫大小約為 27GB。
訓練設置
該模型以論文 LEGAL-BERT: The Muppets straight out of Law School 中的 LEGAL-BERT-SC 模型 為初始模型。在我們的工作中,將這個模型稱為 LegalBERT,重新訓練後的模型稱為 InLegalBERT。我們在掩碼語言建模(MLM)和下一句預測(NSP)任務上,使用我們的數據對該模型進一步訓練了 30 萬步。
模型概述
該模型使用與 LegalBERT 相同的分詞器。模型配置與 bert-base-uncased 模型 相同:12 個隱藏層、768 維隱藏層維度、12 個注意力頭,約 1.1 億個參數。
微調結果
我們使用印度數據集在三項法律任務上對所有預訓練模型進行了微調:
- 法律條文識別(ILSI 數據集)[多標籤文本分類]:根據法院案件事實識別相關法律條文。
- 語義分割(ISS 數據集)[句子標註]:將文檔分割為 7 個功能部分(語義段),如事實、論據等。
- 法院判決預測(ILDC 數據集)[二分類文本分類]:預測法院案件的訴求是否會被接受。
InLegalBERT 在所有三項任務中都優於 LegalBERT 以及我們使用的其他所有基線/變體模型。詳情請參閱我們的 論文。
🔧 技術細節
本模型基於 Transformer 架構,通過在大規模的印度法律文本語料上進行預訓練,學習到了豐富的法律領域語義信息。在微調階段,針對不同的法律任務,對模型進行了針對性的調整,以適應具體的任務需求。
📄 許可證
本項目採用 MIT 許可證。
📚 引用信息
@inproceedings{paul-2022-pretraining,
url = {https://arxiv.org/abs/2209.06049},
author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
year = {2023},
}
👥 關於我們
我們是來自印度理工學院卡拉格普爾分校計算機科學與技術系的一組研究人員。我們的研究興趣主要集中在機器學習和自然語言處理在法律領域的應用,特別關注印度法律場景中的挑戰和機遇。我們已經並正在開展多項法律任務的研究,如:
- 命名實體識別、法律文檔摘要
- 法律文檔語義分割
- 從事實中識別法律條文、法院判決預測
- 法律文檔匹配
你可以在 這裡 找到我們公開的代碼和數據集。