模型简介
模型特点
模型能力
使用案例
🚀 法律BERT:刚从法学院毕业的木偶们
Legal-BERT是一系列适用于法律领域的BERT模型,旨在助力法律自然语言处理研究、计算法学以及法律科技应用。为了预训练不同版本的Legal-BERT,我们从多个领域(如立法、法院判例、合同等)的公开资源中收集了12GB多样的英文法律文本。特定子领域的变体(如合同、欧盟法律、欧洲人权法院相关模型)以及通用的Legal-BERT在特定领域任务中的表现优于直接使用BERT模型。此版本是基于美国合同文本进行预训练的子领域变体模型。
I. Chalkidis、M. Fergadiotis、P. Malakasiotis、N. Aletras和I. Androutsopoulos。“Legal-BERT:刚从法学院毕业的木偶们”。收录于自然语言处理经验方法研讨会(EMNLP 2020)成果集(短篇论文),将于2020年线上举办。(https://aclanthology.org/2020.findings-emnlp.261)
📚 预训练语料库
Legal-BERT的预训练语料库包括:
- 116,062份欧盟立法文件,可从EURLEX(http://eur-lex.europa.eu)公开获取,EURLEX是由欧盟出版局运营的欧盟法律资源库。
- 61,826份英国立法文件,可从英国立法门户(http://www.legislation.gov.uk)公开获取。
- 19,867份欧洲法院(ECJ)的判例,同样可从EURLEX获取。
- 12,554份来自HUDOC(欧洲人权法院判例资源库,http://hudoc.echr.coe.int/eng)的判例。
- 164,141份来自美国各地法院的判例,托管于判例法访问项目门户(https://case.law)。
- 76,366份来自EDGAR(美国证券交易委员会数据库,https://www.sec.gov/edgar.shtml)的美国合同。
🔧 预训练细节
- 我们使用Google BERT的GitHub仓库(https://github.com/google-research/bert)中提供的官方代码对BERT进行训练。
- 我们发布了一个类似于英文BERT-BASE模型(12层、768隐藏层、12头注意力机制、1.1亿参数)的模型。
- 我们选择采用相同的训练设置:100万步训练,批次大小为256个长度为512的序列,初始学习率为1e-4。
- 我们能够免费使用由TensorFlow研究云(TFRC)提供的单个Google Cloud TPU v3-8,同时也利用了GCP研究信用额度。非常感谢这两个Google项目对我们的支持!
📋 模型列表
模型名称 | 模型路径 | 训练语料 |
---|---|---|
CONTRACTS-BERT-BASE | nlpaueb/bert-base-uncased-contracts |
美国合同 |
EURLEX-BERT-BASE | nlpaueb/bert-base-uncased-eurlex |
欧盟立法 |
ECHR-BERT-BASE | nlpaueb/bert-base-uncased-echr |
欧洲人权法院判例 |
LEGAL-BERT-BASE * | nlpaueb/legal-bert-base-uncased |
全部语料 |
LEGAL-BERT-SMALL | nlpaueb/legal-bert-small-uncased |
全部语料 |
* LEGAL-BERT-BASE即Chalkidis等人(2020)中提到的LEGAL-BERT-SC模型;该模型是在下面提到的法律语料库上从头开始训练的,使用了由在相同语料库上训练的sentence-piece分词器创建的新词汇表。
** 由于很多人对LEGAL-BERT-FP模型(基于原始BERT-BASE检查点的模型)表示感兴趣,这些模型已发布在Archive.org(https://archive.org/details/legal_bert_fp)上,因为这些模型是次要的,可能仅对那些想要深入研究Chalkidis等人(2020)中提出的开放性问题的人有吸引力。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-uncased-contracts")
model = AutoModel.from_pretrained("nlpaueb/bert-base-uncased-contracts")
作为语言模型使用Legal-BERT变体
语料 | 模型 | 掩码标记 | 预测结果 |
---|---|---|---|
BERT-BASE-UNCASED | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('新的', '0.09'), ('当前的', '0.04'), ('提议的', '0.03'), ('营销', '0.03'), ('联合', '0.02') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.32'), ('强奸', '0.22'), ('虐待', '0.14'), ('死亡', '0.04'), ('暴力', '0.03') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | ('农场', '0.25'), ('牲畜', '0.08'), ('草案', '0.06'), ('家养', '0.05'), ('野生', '0.05') |
CONTRACTS-BERT-BASE | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('信函', '0.38'), ('经销商', '0.04'), ('雇佣', '0.03'), ('奖励', '0.03'), ('贡献', '0.02') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('死亡', '0.39'), ('监禁', '0.07'), ('藐视', '0.05'), ('存在', '0.03'), ('犯罪', '0.02') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | (('家养', '0.18'), ('实验室', '0.07'), ('家庭', '0.06'), ('个人', '0.06'), ('的', '0.04') |
EURLEX-BERT-BASE | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('供应', '0.11'), ('合作', '0.08'), ('服务', '0.07'), ('许可', '0.07'), ('分销', '0.05') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.66'), ('死亡', '0.07'), ('监禁', '0.07'), ('谋杀', '0.04'), ('强奸', '0.02') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | ('活体', '0.43'), ('宠物', '0.28'), ('某些', '0.05'), ('皮毛', '0.03'), ('的', '0.02') |
ECHR-BERT-BASE | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('第二', '0.24'), ('后者', '0.10'), ('草案', '0.05'), ('双边', '0.05'), ('仲裁', '0.04') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.99'), ('死亡', '0.01'), ('不人道', '0.00'), ('殴打', '0.00'), ('强奸', '0.00') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | ('宠物', '0.17'), ('所有', '0.12'), ('屠宰的', '0.10'), ('家养', '0.07'), ('个体', '0.05') |
LEGAL-BERT-BASE | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('和解', '0.26'), ('信函', '0.23'), ('经销商', '0.04'), ('主', '0.02'), ('补充', '0.02') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('酷刑', '1.00'), ('拘留', '0.00'), ('逮捕', '0.00'), ('强奸', '0.00'), ('死亡', '0.00') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | ('活体', '0.67'), ('牛肉', '0.17'), ('农场', '0.03'), ('宠物', '0.02'), ('乳制品', '0.01') |
LEGAL-BERT-SMALL | |||
(合同) | 这份 [MASK] 协议是通用汽车公司和约翰·默里之间签订的。 | 雇佣 | ('许可', '0.09'), ('过渡', '0.08'), ('和解', '0.04'), ('同意', '0.03'), ('信函', '0.03') |
(欧洲人权法院判例) | 申请人称,她的丈夫在阿达纳安全局拘留期间遭受了等同于 [MASK] 的待遇。 | 酷刑 | ('酷刑', '0.59'), ('痛苦', '0.05'), ('创伤后应激障碍', '0.05'), ('死亡', '0.02'), ('肺结核', '0.02') |
(欧盟立法) | 建立一个关于 [MASK] 动物识别和登记以及牛肉和牛肉制品标签的系统。 | 牛科动物 | ('所有', '0.08'), ('活体', '0.07'), ('某些', '0.07'), ('的', '0.07'), ('农场', '0.05') |
📊 下游任务评估
可参考论文“Legal-BERT:刚从法学院毕业的木偶们”中的实验。Chalkidis等人,2020年,(https://aclanthology.org/2020.findings-emnlp.261)
📄 引用信息
@inproceedings{chalkidis-etal-2020-legal,
title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
author = "Chalkidis, Ilias and
Fergadiotis, Manos and
Malakasiotis, Prodromos and
Aletras, Nikolaos and
Androutsopoulos, Ion",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
doi = "10.18653/v1/2020.findings-emnlp.261",
pages = "2898--2904"
}
👥 关于我们
雅典经济与商业大学自然语言处理小组致力于开发让计算机处理和生成自然语言文本的算法、模型和系统。
该小组目前的研究兴趣包括:
- 用于数据库、本体、文档集合和网络的问答系统,特别是生物医学问答系统。
- 从数据库和本体(特别是语义网络本体)生成自然语言文本。
- 文本分类,包括过滤垃圾邮件和不良内容。
- 信息提取和观点挖掘,包括法律文本分析和情感分析。
- 希腊语自然语言处理工具,例如解析器和命名实体识别器。
- 自然语言处理中的机器学习,特别是深度学习。
该小组隶属于雅典经济与商业大学信息学系信息处理实验室。
伊利亚斯·查尔基迪斯 代表 雅典经济与商业大学自然语言处理小组
| GitHub: @ilias.chalkidis | Twitter: @KiddoThe2B |
📄 许可证
本项目采用CC BY-SA 4.0许可证。



