模型概述
模型特點
模型能力
使用案例
🚀 法律BERT:剛從法學院畢業的木偶們
Legal-BERT是一系列適用於法律領域的BERT模型,旨在助力法律自然語言處理研究、計算法學以及法律科技應用。為了預訓練不同版本的Legal-BERT,我們從多個領域(如立法、法院判例、合同等)的公開資源中收集了12GB多樣的英文法律文本。特定子領域的變體(如合同、歐盟法律、歐洲人權法院相關模型)以及通用的Legal-BERT在特定領域任務中的表現優於直接使用BERT模型。此版本是基於美國合同文本進行預訓練的子領域變體模型。
I. Chalkidis、M. Fergadiotis、P. Malakasiotis、N. Aletras和I. Androutsopoulos。“Legal-BERT:剛從法學院畢業的木偶們”。收錄於自然語言處理經驗方法研討會(EMNLP 2020)成果集(短篇論文),將於2020年線上舉辦。(https://aclanthology.org/2020.findings-emnlp.261)
📚 預訓練語料庫
Legal-BERT的預訓練語料庫包括:
- 116,062份歐盟立法文件,可從EURLEX(http://eur-lex.europa.eu)公開獲取,EURLEX是由歐盟出版局運營的歐盟法律資源庫。
- 61,826份英國立法文件,可從英國立法門戶(http://www.legislation.gov.uk)公開獲取。
- 19,867份歐洲法院(ECJ)的判例,同樣可從EURLEX獲取。
- 12,554份來自HUDOC(歐洲人權法院判例資源庫,http://hudoc.echr.coe.int/eng)的判例。
- 164,141份來自美國各地法院的判例,託管於判例法訪問項目門戶(https://case.law)。
- 76,366份來自EDGAR(美國證券交易委員會數據庫,https://www.sec.gov/edgar.shtml)的美國合同。
🔧 預訓練細節
- 我們使用Google BERT的GitHub倉庫(https://github.com/google-research/bert)中提供的官方代碼對BERT進行訓練。
- 我們發佈了一個類似於英文BERT-BASE模型(12層、768隱藏層、12頭注意力機制、1.1億參數)的模型。
- 我們選擇採用相同的訓練設置:100萬步訓練,批次大小為256個長度為512的序列,初始學習率為1e-4。
- 我們能夠免費使用由TensorFlow研究雲(TFRC)提供的單個Google Cloud TPU v3-8,同時也利用了GCP研究信用額度。非常感謝這兩個Google項目對我們的支持!
📋 模型列表
模型名稱 | 模型路徑 | 訓練語料 |
---|---|---|
CONTRACTS-BERT-BASE | nlpaueb/bert-base-uncased-contracts |
美國合同 |
EURLEX-BERT-BASE | nlpaueb/bert-base-uncased-eurlex |
歐盟立法 |
ECHR-BERT-BASE | nlpaueb/bert-base-uncased-echr |
歐洲人權法院判例 |
LEGAL-BERT-BASE * | nlpaueb/legal-bert-base-uncased |
全部語料 |
LEGAL-BERT-SMALL | nlpaueb/legal-bert-small-uncased |
全部語料 |
* LEGAL-BERT-BASE即Chalkidis等人(2020)中提到的LEGAL-BERT-SC模型;該模型是在下面提到的法律語料庫上從頭開始訓練的,使用了由在相同語料庫上訓練的sentence-piece分詞器創建的新詞彙表。
** 由於很多人對LEGAL-BERT-FP模型(基於原始BERT-BASE檢查點的模型)表示感興趣,這些模型已發佈在Archive.org(https://archive.org/details/legal_bert_fp)上,因為這些模型是次要的,可能僅對那些想要深入研究Chalkidis等人(2020)中提出的開放性問題的人有吸引力。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-uncased-contracts")
model = AutoModel.from_pretrained("nlpaueb/bert-base-uncased-contracts")
作為語言模型使用Legal-BERT變體
語料 | 模型 | 掩碼標記 | 預測結果 |
---|---|---|---|
BERT-BASE-UNCASED | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('新的', '0.09'), ('當前的', '0.04'), ('提議的', '0.03'), ('營銷', '0.03'), ('聯合', '0.02') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.32'), ('強姦', '0.22'), ('虐待', '0.14'), ('死亡', '0.04'), ('暴力', '0.03') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | ('農場', '0.25'), ('牲畜', '0.08'), ('草案', '0.06'), ('家養', '0.05'), ('野生', '0.05') |
CONTRACTS-BERT-BASE | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('信函', '0.38'), ('經銷商', '0.04'), ('僱傭', '0.03'), ('獎勵', '0.03'), ('貢獻', '0.02') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('死亡', '0.39'), ('監禁', '0.07'), ('藐視', '0.05'), ('存在', '0.03'), ('犯罪', '0.02') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | (('家養', '0.18'), ('實驗室', '0.07'), ('家庭', '0.06'), ('個人', '0.06'), ('的', '0.04') |
EURLEX-BERT-BASE | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('供應', '0.11'), ('合作', '0.08'), ('服務', '0.07'), ('許可', '0.07'), ('分銷', '0.05') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.66'), ('死亡', '0.07'), ('監禁', '0.07'), ('謀殺', '0.04'), ('強姦', '0.02') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | ('活體', '0.43'), ('寵物', '0.28'), ('某些', '0.05'), ('皮毛', '0.03'), ('的', '0.02') |
ECHR-BERT-BASE | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('第二', '0.24'), ('後者', '0.10'), ('草案', '0.05'), ('雙邊', '0.05'), ('仲裁', '0.04') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.99'), ('死亡', '0.01'), ('不人道', '0.00'), ('毆打', '0.00'), ('強姦', '0.00') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | ('寵物', '0.17'), ('所有', '0.12'), ('屠宰的', '0.10'), ('家養', '0.07'), ('個體', '0.05') |
LEGAL-BERT-BASE | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('和解', '0.26'), ('信函', '0.23'), ('經銷商', '0.04'), ('主', '0.02'), ('補充', '0.02') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('酷刑', '1.00'), ('拘留', '0.00'), ('逮捕', '0.00'), ('強姦', '0.00'), ('死亡', '0.00') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | ('活體', '0.67'), ('牛肉', '0.17'), ('農場', '0.03'), ('寵物', '0.02'), ('乳製品', '0.01') |
LEGAL-BERT-SMALL | |||
(合同) | 這份 [MASK] 協議是通用汽車公司和約翰·默裡之間簽訂的。 | 僱傭 | ('許可', '0.09'), ('過渡', '0.08'), ('和解', '0.04'), ('同意', '0.03'), ('信函', '0.03') |
(歐洲人權法院判例) | 申請人稱,她的丈夫在阿達納安全局拘留期間遭受了等同於 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.59'), ('痛苦', '0.05'), ('創傷後應激障礙', '0.05'), ('死亡', '0.02'), ('肺結核', '0.02') |
(歐盟立法) | 建立一個關於 [MASK] 動物識別和登記以及牛肉和牛肉製品標籤的系統。 | 牛科動物 | ('所有', '0.08'), ('活體', '0.07'), ('某些', '0.07'), ('的', '0.07'), ('農場', '0.05') |
📊 下游任務評估
可參考論文“Legal-BERT:剛從法學院畢業的木偶們”中的實驗。Chalkidis等人,2020年,(https://aclanthology.org/2020.findings-emnlp.261)
📄 引用信息
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and
Fergadiotis, Manos and
Malakasiotis, Prodromos and
Aletras, Nikolaos and
Androutsopoulos, Ion",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
doi = "10.18653/v1/2020.findings-emnlp.261",
pages = "2898--2904"
}
👥 關於我們
雅典經濟與商業大學自然語言處理小組致力於開發讓計算機處理和生成自然語言文本的算法、模型和系統。
該小組目前的研究興趣包括:
- 用於數據庫、本體、文檔集合和網絡的問答系統,特別是生物醫學問答系統。
- 從數據庫和本體(特別是語義網絡本體)生成自然語言文本。
- 文本分類,包括過濾垃圾郵件和不良內容。
- 信息提取和觀點挖掘,包括法律文本分析和情感分析。
- 希臘語自然語言處理工具,例如解析器和命名實體識別器。
- 自然語言處理中的機器學習,特別是深度學習。
該小組隸屬於雅典經濟與商業大學信息學系信息處理實驗室。
伊利亞斯·查爾基迪斯 代表 雅典經濟與商業大學自然語言處理小組
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |
📄 許可證
本項目採用CC BY-SA 4.0許可證。



