🚀 RoBERTa基础模型:基于西班牙法律领域语料库训练
本模型基于西班牙法律领域语料库对RoBERTa基础模型进行训练,可用于掩码语言建模任务,在法律文本处理方面具有重要价值。
🚀 快速开始
模型概述
- 架构:roberta-base
- 语言:西班牙语
- 任务:填充掩码
- 数据:法律领域
模型描述
RoBERTalex 是一个基于Transformer的西班牙语掩码语言模型。它基于 RoBERTa 基础模型,并使用大型 西班牙法律领域语料库 进行预训练,该语料库包含总计8.9GB的文本。
预期用途和限制
RoBERTalex 模型仅可直接用于掩码语言建模以执行填充掩码任务(可尝试推理API或阅读下一部分)。不过,它也可用于在非生成式下游任务(如问答、文本分类或命名实体识别)上进行微调。你可以使用原始模型进行填充掩码任务,也可以将其微调用于下游任务。
使用示例
基础用法
>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex')
>>> pprint(unmasker("La ley fue <mask> finalmente."))
[{'score': 0.21217258274555206,
'sequence': ' La ley fue modificada finalmente.',
'token': 5781,
'token_str': ' modificada'},
{'score': 0.20414969325065613,
'sequence': ' La ley fue derogada finalmente.',
'token': 15951,
'token_str': ' derogada'},
{'score': 0.19272951781749725,
'sequence': ' La ley fue aprobada finalmente.',
'token': 5534,
'token_str': ' aprobada'},
{'score': 0.061143241822719574,
'sequence': ' La ley fue revisada finalmente.',
'token': 14192,
'token_str': ' revisada'},
{'score': 0.041809432208538055,
'sequence': ' La ley fue aplicada finalmente.',
'token': 12208,
'token_str': ' aplicada'}]
高级用法
>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> text = "Gracias a los datos legales se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 16, 768])
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料库是通过在多个网络源上进行爬取技术收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果研究完成,此模型卡片将进行更新。
训练
训练数据
西班牙法律领域语料库 包含多个数字资源,总共有8.9GB的文本数据。其中一部分数据来自 先前的工作。为了获得高质量的训练语料库,该语料库经过了一系列操作的预处理,包括句子分割、语言检测、过滤格式错误的句子以及重复内容的去重。在处理过程中,文档边界得以保留。
训练过程
训练语料库使用了原始 RoBERTA 模型中使用的字节版本的字节对编码(BPE)进行分词,词汇量大小为50,262个标记。
RoBERTalex 的预训练包括掩码语言模型训练,遵循RoBERTa基础模型的方法。该模型在2个计算节点上进行训练,每个节点配备4个16GB VRAM的NVIDIA V100 GPU,直至收敛。
评估
由于缺乏特定领域的评估数据,该模型在通用领域任务上进行了评估,并取得了合理的性能。我们在以下任务中对模型进行了微调:
数据集 |
指标 |
RoBERtalex |
UD - POS |
F1 |
0.9871 |
CoNLL - NERC |
F1 |
0.8323 |
CAPITEL - POS |
F1 |
0.9788 |
CAPITEL - NERC |
F1 |
0.8394 |
STS |
综合 |
0.7374 |
MLDoc |
准确率 |
0.9417 |
PAWS - X |
F1 |
0.7304 |
XNLI |
准确率 |
0.7337 |
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc - temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 <plantl - gob - es@bsc.es>
版权
版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022年)
许可信息
[Apache许可证,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0)
资金支持
这项工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan - TL框架内资助。
引用信息
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez - Fandiño and Jordi Armengol - Estapé and Aitor Gonzalez - Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为这些模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 数字化与人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。