🚀 RoBERTa基礎模型:基於西班牙法律領域語料庫訓練
本模型基於西班牙法律領域語料庫對RoBERTa基礎模型進行訓練,可用於掩碼語言建模任務,在法律文本處理方面具有重要價值。
🚀 快速開始
模型概述
- 架構:roberta-base
- 語言:西班牙語
- 任務:填充掩碼
- 數據:法律領域
模型描述
RoBERTalex 是一個基於Transformer的西班牙語掩碼語言模型。它基於 RoBERTa 基礎模型,並使用大型 西班牙法律領域語料庫 進行預訓練,該語料庫包含總計8.9GB的文本。
預期用途和限制
RoBERTalex 模型僅可直接用於掩碼語言建模以執行填充掩碼任務(可嘗試推理API或閱讀下一部分)。不過,它也可用於在非生成式下游任務(如問答、文本分類或命名實體識別)上進行微調。你可以使用原始模型進行填充掩碼任務,也可以將其微調用於下游任務。
使用示例
基礎用法
>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex')
>>> pprint(unmasker("La ley fue <mask> finalmente."))
[{'score': 0.21217258274555206,
'sequence': ' La ley fue modificada finalmente.',
'token': 5781,
'token_str': ' modificada'},
{'score': 0.20414969325065613,
'sequence': ' La ley fue derogada finalmente.',
'token': 15951,
'token_str': ' derogada'},
{'score': 0.19272951781749725,
'sequence': ' La ley fue aprobada finalmente.',
'token': 5534,
'token_str': ' aprobada'},
{'score': 0.061143241822719574,
'sequence': ' La ley fue revisada finalmente.',
'token': 14192,
'token_str': ' revisada'},
{'score': 0.041809432208538055,
'sequence': ' La ley fue aplicada finalmente.',
'token': 12208,
'token_str': ' aplicada'}]
高級用法
>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> text = "Gracias a los datos legales se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 16, 768])
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
訓練數據
西班牙法律領域語料庫 包含多個數字資源,總共有8.9GB的文本數據。其中一部分數據來自 先前的工作。為了獲得高質量的訓練語料庫,該語料庫經過了一系列操作的預處理,包括句子分割、語言檢測、過濾格式錯誤的句子以及重複內容的去重。在處理過程中,文檔邊界得以保留。
訓練過程
訓練語料庫使用了原始 RoBERTA 模型中使用的字節版本的字節對編碼(BPE)進行分詞,詞彙量大小為50,262個標記。
RoBERTalex 的預訓練包括掩碼語言模型訓練,遵循RoBERTa基礎模型的方法。該模型在2個計算節點上進行訓練,每個節點配備4個16GB VRAM的NVIDIA V100 GPU,直至收斂。
評估
由於缺乏特定領域的評估數據,該模型在通用領域任務上進行了評估,並取得了合理的性能。我們在以下任務中對模型進行了微調:
數據集 |
指標 |
RoBERtalex |
UD - POS |
F1 |
0.9871 |
CoNLL - NERC |
F1 |
0.8323 |
CAPITEL - POS |
F1 |
0.9788 |
CAPITEL - NERC |
F1 |
0.8394 |
STS |
綜合 |
0.7374 |
MLDoc |
準確率 |
0.9417 |
PAWS - X |
F1 |
0.7304 |
XNLI |
準確率 |
0.7337 |
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc - temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 <plantl - gob - es@bsc.es>
版權
版權歸西班牙數字化與人工智能國務秘書處(SEDIA)所有(2022年)
許可信息
[Apache許可證,版本2.0](https://www.apache.org/licenses/LICENSE - 2.0)
資金支持
這項工作由西班牙數字化與人工智能國務秘書處(SEDIA)在Plan - TL框架內資助。
引用信息
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez - Fandiño and Jordi Armengol - Estapé and Aitor Gonzalez - Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。