🚀 定制法律BERT模型
定制法律BERT模型用于解决法律领域的文本处理问题,其基于特定的法律语料库进行预训练,能更好地适应法律文本的特点,在法律相关的分类和多项选择任务中具有重要价值。
✨ 主要特性
- 基于特定的法律语料库进行预训练,能更好地处理法律文本。
- 使用定制的特定领域法律词汇表,提升对法律术语的处理能力。
📦 安装指南
文档未提供安装步骤,跳过该章节。
💻 使用示例
文档未提供代码示例,跳过该章节。
📚 详细文档
定制法律BERT模型
定制法律BERT模型的模型和分词器文件来自论文 何时预训练有帮助?评估法律领域的自监督学习及CaseHOLD数据集。
训练数据
预训练语料库是通过摄取1965年至今的整个哈佛法律案例语料库(https://case.law/)构建的。这个语料库的规模相当大(37GB),涵盖了所有联邦和州法院的3,446,187份法律判决,比最初用于训练BERT的BookCorpus/Wikipedia语料库(15GB)还要大。
训练目标
该模型在掩码语言模型(MLM)和下一句预测(NSP)目标上从头开始预训练了200万步,其分词和句子分割方法经过调整以适应法律文本(详见论文)。
该模型还使用了定制的特定领域法律词汇表。词汇集是使用 SentencePiece 在预训练语料库的一个子样本(约1300万条句子)上构建的,词元数量固定为32000个。
使用方法
有关支持计算预训练损失以及在定制法律BERT模型上进行微调以完成论文中描述的分类和多项选择任务(推翻裁决、服务条款、CaseHOLD)的脚本,请参阅 casehold仓库。
🔧 技术细节
该模型基于特定的法律语料库进行预训练,使用定制的法律词汇表,在掩码语言模型(MLM)和下一句预测(NSP)目标上进行训练。其分词和句子分割方法经过调整以适应法律文本,能更好地处理法律领域的文本数据。
📄 许可证
文档未提供许可证信息,跳过该章节。
📚 引用
@inproceedings{zhengguha2021,
title={When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset},
author={Lucia Zheng and Neel Guha and Brandon R. Anderson and Peter Henderson and Daniel E. Ho},
year={2021},
eprint={2104.08671},
archivePrefix={arXiv},
primaryClass={cs.CL},
booktitle={Proceedings of the 18th International Conference on Artificial Intelligence and Law},
publisher={Association for Computing Machinery}
}
Lucia Zheng、Neel Guha、Brandon R. Anderson、Peter Henderson 和 Daniel E. Ho. 2021. 何时预训练有帮助?评估法律领域的自监督学习及CaseHOLD数据集. 见 第18届人工智能与法律国际会议论文集 (ICAIL '21), 2021年6月21 - 25日, 巴西圣保罗. 美国计算机协会, 纽约, NY, (待发表). arXiv: 2104.08671 \[cs.CL\].