🚀 西班牙RoBERTa-large模型:基於BNE訓練並針對CAPITEL命名實體識別(NER)數據集微調
本模型是在BNE數據集上預訓練的西班牙RoBERTa-large模型,針對CAPITEL命名實體識別(NER)數據集進行了微調。它能夠有效地識別西班牙語中的命名實體,為自然語言處理任務提供強大支持。
標籤與數據集
- 標籤:"西班牙國家圖書館", "西班牙語", "BNE", "CAPITEL", "NER"
- 數據集:"BNE", "CAPITEL"
指標與推理參數
- 指標:"F1"
- 推理參數:聚合策略為 "first"
模型索引
屬性 |
詳情 |
模型名稱 |
roberta-large-bne-capiter-ner |
任務類型 |
令牌分類 |
數據集類型 |
NER |
數據集名稱 |
CAPITEL-NERC |
F1值 |
0.9051 |
示例輸入
- "Me llamo Francisco Javier y vivo en Madrid."
- "Mi hermano Ramón y su mejor amigo Luis trabajan en el BSC."
🚀 快速開始
模型描述
roberta-large-bne-capitel-ner 是一個用於西班牙語的命名實體識別(NER)模型。它基於 roberta-large-bne 模型進行微調,而 roberta-large-bne 是一個 RoBERTa 大型模型,使用了截至目前已知的最大西班牙語語料庫進行預訓練,該語料庫包含總計570GB的乾淨且去重的文本,這些文本是從西班牙國家圖書館(Biblioteca Nacional de España)在2009年至2019年期間進行的網絡爬取數據中處理而來。
預期用途和限制
roberta-large-bne-capitel-ner 模型可用於識別命名實體(NE)。不過,該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化表現。
使用方法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-large-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
限制和偏差
在提交時,尚未採取措施來評估模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集而來,我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究,如果研究完成,本模型卡片將進行更新。
訓練
所使用的數據集來自 2020年IberLEF的CAPITEL競賽(子任務1)。
訓練過程
模型以32的批量大小和3e - 5的學習率進行了5個週期的訓練。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估
變量和指標
該模型在微調時最大化了F1分數。
評估結果
我們在CAPITEL - NERC測試集上對 roberta-large-bne-capitel-ner 與標準多語言和單語言基線模型進行了評估:
模型 |
CAPITEL - NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
更多詳細信息,請查看官方 GitHub倉庫 中的微調與評估腳本。
額外信息
作者
巴塞羅那超級計算中心(Barcelona Supercomputing Center)的文本挖掘單元(Text Mining Unit,TeMU)(bsc - temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 <plantl - gob - es@bsc.es>
版權
版權歸西班牙數字化與人工智能國務秘書處(Spanish State Secretariat for Digitalization and Artificial Intelligence,SEDIA)所有(2022年)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化與人工智能國務秘書處(SEDIA)在Plan - TL框架內提供資金支持。
引用信息
如果您使用此模型,請引用我們的 論文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型所帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型所有者(SEDIA - 數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。