🚀 定製法律BERT模型
定製法律BERT模型用於解決法律領域的文本處理問題,其基於特定的法律語料庫進行預訓練,能更好地適應法律文本的特點,在法律相關的分類和多項選擇任務中具有重要價值。
✨ 主要特性
- 基於特定的法律語料庫進行預訓練,能更好地處理法律文本。
- 使用定製的特定領域法律詞彙表,提升對法律術語的處理能力。
📦 安裝指南
文檔未提供安裝步驟,跳過該章節。
💻 使用示例
文檔未提供代碼示例,跳過該章節。
📚 詳細文檔
定製法律BERT模型
定製法律BERT模型的模型和分詞器文件來自論文 何時預訓練有幫助?評估法律領域的自監督學習及CaseHOLD數據集。
訓練數據
預訓練語料庫是通過攝取1965年至今的整個哈佛法律案例語料庫(https://case.law/)構建的。這個語料庫的規模相當大(37GB),涵蓋了所有聯邦和州法院的3,446,187份法律判決,比最初用於訓練BERT的BookCorpus/Wikipedia語料庫(15GB)還要大。
訓練目標
該模型在掩碼語言模型(MLM)和下一句預測(NSP)目標上從頭開始預訓練了200萬步,其分詞和句子分割方法經過調整以適應法律文本(詳見論文)。
該模型還使用了定製的特定領域法律詞彙表。詞彙集是使用 SentencePiece 在預訓練語料庫的一個子樣本(約1300萬條句子)上構建的,詞元數量固定為32000個。
使用方法
有關支持計算預訓練損失以及在定製法律BERT模型上進行微調以完成論文中描述的分類和多項選擇任務(推翻裁決、服務條款、CaseHOLD)的腳本,請參閱 casehold倉庫。
🔧 技術細節
該模型基於特定的法律語料庫進行預訓練,使用定製的法律詞彙表,在掩碼語言模型(MLM)和下一句預測(NSP)目標上進行訓練。其分詞和句子分割方法經過調整以適應法律文本,能更好地處理法律領域的文本數據。
📄 許可證
文檔未提供許可證信息,跳過該章節。
📚 引用
@inproceedings{zhengguha2021,
title={When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset},
author={Lucia Zheng and Neel Guha and Brandon R. Anderson and Peter Henderson and Daniel E. Ho},
year={2021},
eprint={2104.08671},
archivePrefix={arXiv},
primaryClass={cs.CL},
booktitle={Proceedings of the 18th International Conference on Artificial Intelligence and Law},
publisher={Association for Computing Machinery}
}
Lucia Zheng、Neel Guha、Brandon R. Anderson、Peter Henderson 和 Daniel E. Ho. 2021. 何時預訓練有幫助?評估法律領域的自監督學習及CaseHOLD數據集. 見 第18屆人工智能與法律國際會議論文集 (ICAIL '21), 2021年6月21 - 25日, 巴西聖保羅. 美國計算機協會, 紐約, NY, (待發表). arXiv: 2104.08671 \[cs.CL\].