🚀 Legal-BERT
Legal-BERT是一個專門為法律領域設計的模型,它基於BERT架構,使用大規模法律案例語料進行預訓練,能夠有效處理法律文本相關的任務,如法律案例分類、多項選擇等。
✨ 主要特性
- 專業適配:針對法律文本進行了定製化的分詞和句子分割,更適合處理法律領域的自然語言處理任務。
- 大規模語料:使用從1965年至今的整個哈佛法律案例語料庫進行預訓練,語料規模達37GB,遠大於最初訓練BERT的語料庫。
📦 安裝指南
文檔未提供具體安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
文檔未提供基礎用法的代碼示例,故跳過該部分。
高級用法
文檔未提供高級用法的代碼示例,故跳過該部分。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於BERT架構的法律領域預訓練模型 |
訓練數據 |
從1965年至今的整個哈佛法律案例語料庫(https://case.law/),規模達37GB,包含3,446,187個聯邦和州法院的法律判決 |
訓練目標
該模型以基礎BERT模型(uncased,1.1億參數)bert-base-uncased 為基礎進行初始化,並在掩碼語言模型(MLM)和下一句預測(NSP)目標上額外訓練了100萬步,同時針對法律文本進行了分詞和句子分割的適配(詳見論文)。
使用說明
請參考 casehold倉庫 中的腳本,這些腳本支持計算預訓練損失,並在Legal-BERT上進行微調,以完成論文中描述的分類和多項選擇任務:推翻原判、服務條款、CaseHOLD。
🔧 技術細節
本模型的預訓練語料庫構建是通過攝取從1965年至今的整個哈佛法律案例語料庫完成的。該語料庫規模達37GB,比最初用於訓練BERT的BookCorpus/Wikipedia語料庫(15GB)更大,包含了所有聯邦和州法院的3,446,187個法律判決。模型以基礎BERT模型為初始化,在MLM和NSP目標上進行額外訓練,並針對法律文本的特點對分詞和句子分割進行了調整。
📄 許可證
文檔未提供許可證信息,故跳過該章節。
📄 引用信息
@inproceedings{zhengguha2021,
title={When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset},
author={Lucia Zheng and Neel Guha and Brandon R. Anderson and Peter Henderson and Daniel E. Ho},
year={2021},
eprint={2104.08671},
archivePrefix={arXiv},
primaryClass={cs.CL},
booktitle={Proceedings of the 18th International Conference on Artificial Intelligence and Law},
publisher={Association for Computing Machinery}
}
Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, and Daniel E. Ho. 2021. When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset. In Proceedings of the 18th International Conference on Artificial Intelligence and Law (ICAIL '21), June 21 - 25, 2021, São Paulo, Brazil. ACM Inc., New York, NY, (in press). arXiv: 2104.08671 [cs.CL].