roberta-large-bne-capitel-ner開源模型 - 助力西班牙語命名實體高效識別

首頁

Roberta Large Bne Capitel Ner

由PlanTL-GOB-ES開發

該模型是基於RoBERTa架構的西班牙語命名實體識別模型，在BNE大規模語料庫預訓練後，使用CAPITEL-NERC數據集微調

序列標註

Transformers

支持多種語言開源協議:Apache-2.0 #西班牙語NER #高精度實體識別 #BNE預訓練

下載量 370

發布時間 : 3/2/2022

模型概述

用於西班牙語文本中的命名實體識別任務，可識別如人名、地名等實體

模型特點

大規模預訓練

基於570GB清洗過的西班牙國家圖書館(BNE)網絡爬取數據預訓練

領域優化

使用CAPITEL競賽數據集進行命名實體識別專項微調

高性能

在CAPITEL-NERC測試集上達到90.51 F1值，優於同類西班牙語模型

模型能力

西班牙語文本處理

命名實體識別

人名識別

地名識別

組織機構名識別

使用案例

信息提取

用戶信息提取

從用戶輸入文本中提取人名、地址等實體信息

示例輸入'我叫Francisco Javier，住在馬德里'可準確識別人名和地名

文檔分析

機構文檔處理

自動化處理包含機構名稱和人名的西班牙語文檔

可識別'BSC'等工作單位信息

🚀 西班牙RoBERTa-large模型：基於BNE訓練並針對CAPITEL命名實體識別（NER）數據集微調

本模型是在BNE數據集上預訓練的西班牙RoBERTa-large模型，針對CAPITEL命名實體識別（NER）數據集進行了微調。它能夠有效地識別西班牙語中的命名實體，為自然語言處理任務提供強大支持。

標籤與數據集

標籤："西班牙國家圖書館", "西班牙語", "BNE", "CAPITEL", "NER"
數據集："BNE", "CAPITEL"

指標與推理參數

指標："F1"
推理參數：聚合策略為 "first"

模型索引

屬性	詳情
模型名稱	roberta-large-bne-capiter-ner
任務類型	令牌分類
數據集類型	NER
數據集名稱	CAPITEL-NERC
F1值	0.9051

示例輸入

"Me llamo Francisco Javier y vivo en Madrid."
"Mi hermano Ramón y su mejor amigo Luis trabajan en el BSC."

🚀 快速開始

模型描述

roberta-large-bne-capitel-ner 是一個用於西班牙語的命名實體識別（NER）模型。它基於 roberta-large-bne 模型進行微調，而 roberta-large-bne 是一個 RoBERTa 大型模型，使用了截至目前已知的最大西班牙語語料庫進行預訓練，該語料庫包含總計570GB的乾淨且去重的文本，這些文本是從西班牙國家圖書館（Biblioteca Nacional de España）在2009年至2019年期間進行的網絡爬取數據中處理而來。

預期用途和限制

roberta-large-bne-capitel-ner 模型可用於識別命名實體（NE）。不過，該模型受其訓練數據集的限制，可能無法在所有用例中都有良好的泛化表現。

使用方法

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-large-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."

ner_results = nlp(example)
pprint(ner_results)

限制和偏差

在提交時，尚未採取措施來評估模型中嵌入的偏差。然而，我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集而來，我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究，如果研究完成，本模型卡片將進行更新。

訓練

所使用的數據集來自 2020年IberLEF的CAPITEL競賽（子任務1）。

訓練過程

模型以32的批量大小和3e - 5的學習率進行了5個週期的訓練。然後，我們使用相應開發集上的下游任務指標選擇了最佳檢查點，並在測試集上進行了評估。

評估

變量和指標

該模型在微調時最大化了F1分數。

評估結果

我們在CAPITEL - NERC測試集上對 roberta-large-bne-capitel-ner 與標準多語言和單語言基線模型進行了評估：

模型	CAPITEL - NERC (F1)
roberta-large-bne-capitel-ner	90.51
roberta-base-bne-capitel-ner	89.60
BETO	87.72
mBERT	88.10
BERTIN	88.56
ELECTRA	80.35

更多詳細信息，請查看官方 GitHub倉庫中的微調與評估腳本。

額外信息

作者

巴塞羅那超級計算中心（Barcelona Supercomputing Center）的文本挖掘單元（Text Mining Unit，TeMU）（bsc - temu@bsc.es）

聯繫信息

如需進一步信息，請發送電子郵件至 <plantl - gob - es@bsc.es>

版權

版權歸西班牙數字化與人工智能國務秘書處（Spanish State Secretariat for Digitalization and Artificial Intelligence，SEDIA）所有（2022年）

許可信息

Apache許可證，版本2.0

資金支持

這項工作由西班牙數字化與人工智能國務秘書處（SEDIA）在Plan - TL框架內提供資金支持。

引用信息

如果您使用此模型，請引用我們的論文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}