🚀 InLegalBERT
InLegalBERT 是基于印度法律文本预训练的 Transformer 模型,为法律领域的自然语言处理任务提供了强大支持,能有效处理如法律条文识别、语义分割和法院判决预测等任务。
🚀 快速开始
使用该模型获取一段文本的嵌入表示:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
✨ 主要特性
- 基于印度法律文本预训练:使用来自印度最高法院和多个高等法院的大量案例文档进行预训练,涵盖 1950 年至 2019 年的各类法律领域。
- 性能优越:在三项法律任务的微调实验中,InLegalBERT 击败了 LegalBERT 以及其他所有基线模型。
📦 安装指南
文档未提及具体安装步骤,可参考 transformers
库的安装方式来使用该模型。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
text = "Replace this string with yours"
encoded_input = tokenizer(text, return_tensors="pt")
model = AutoModel.from_pretrained("law-ai/InLegalBERT")
output = model(**encoded_input)
last_hidden_state = output.last_hidden_state
📚 详细文档
训练数据
为构建印度法律文本的预训练语料库,我们从印度最高法院和许多高等法院收集了大量案例文档。数据集中的法院案例时间跨度从 1950 年到 2019 年,涵盖所有法律领域,如民事、刑事、宪法等。总体而言,数据集包含约 540 万份印度法律文件(均为英文),原始文本语料库大小约为 27GB。
训练设置
该模型以论文 LEGAL-BERT: The Muppets straight out of Law School 中的 LEGAL-BERT-SC 模型 为初始模型。在我们的工作中,将这个模型称为 LegalBERT,重新训练后的模型称为 InLegalBERT。我们在掩码语言建模(MLM)和下一句预测(NSP)任务上,使用我们的数据对该模型进一步训练了 30 万步。
模型概述
该模型使用与 LegalBERT 相同的分词器。模型配置与 bert-base-uncased 模型 相同:12 个隐藏层、768 维隐藏层维度、12 个注意力头,约 1.1 亿个参数。
微调结果
我们使用印度数据集在三项法律任务上对所有预训练模型进行了微调:
- 法律条文识别(ILSI 数据集)[多标签文本分类]:根据法院案件事实识别相关法律条文。
- 语义分割(ISS 数据集)[句子标注]:将文档分割为 7 个功能部分(语义段),如事实、论据等。
- 法院判决预测(ILDC 数据集)[二分类文本分类]:预测法院案件的诉求是否会被接受。
InLegalBERT 在所有三项任务中都优于 LegalBERT 以及我们使用的其他所有基线/变体模型。详情请参阅我们的 论文。
🔧 技术细节
本模型基于 Transformer 架构,通过在大规模的印度法律文本语料上进行预训练,学习到了丰富的法律领域语义信息。在微调阶段,针对不同的法律任务,对模型进行了针对性的调整,以适应具体的任务需求。
📄 许可证
本项目采用 MIT 许可证。
📚 引用信息
@inproceedings{paul-2022-pretraining,
url = {https://arxiv.org/abs/2209.06049},
author = {Paul, Shounak and Mandal, Arpan and Goyal, Pawan and Ghosh, Saptarshi},
title = {Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law},
booktitle = {Proceedings of 19th International Conference on Artificial Intelligence and Law - ICAIL 2023}
year = {2023},
}
👥 关于我们
我们是来自印度理工学院卡拉格普尔分校计算机科学与技术系的一组研究人员。我们的研究兴趣主要集中在机器学习和自然语言处理在法律领域的应用,特别关注印度法律场景中的挑战和机遇。我们已经并正在开展多项法律任务的研究,如:
- 命名实体识别、法律文档摘要
- 法律文档语义分割
- 从事实中识别法律条文、法院判决预测
- 法律文档匹配
你可以在 这里 找到我们公开的代码和数据集。