🚀 西班牙RoBERTa-base模型:基於BNE訓練並針對CAPITEL命名實體識別(NER)數據集微調
本模型基於 roberta-base-bne 模型進行微調,用於西班牙語的命名實體識別(NER)任務。它利用了西班牙國家圖書館(BNE)的大規模語料庫,並在CAPITEL數據集上進行了優化,能夠準確識別西班牙語文本中的命名實體。
🚀 快速開始
代碼示例
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
✨ 主要特性
- 語言適配:專為西班牙語設計,基於大規模西班牙語語料庫預訓練。
- 任務針對性:針對命名實體識別(NER)任務進行微調,在CAPITEL-NERC數據集上表現出色。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face的通用安裝指南,使用以下命令安裝transformers
庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
📚 詳細文檔
模型描述
roberta-base-bne-capitel-ner 是一個用於西班牙語的命名實體識別(NER)模型,它基於 roberta-base-bne 模型進行微調。而 roberta-base-bne 是一個 RoBERTa 基礎模型,使用了截至目前已知的最大西班牙語語料庫進行預訓練,該語料庫總計包含570GB的乾淨且去重的文本,這些文本是從西班牙國家圖書館(Biblioteca Nacional de España)在2009年至2019年期間進行的網絡爬取數據中處理而來。
預期用途和限制
roberta-base-bne-capitel-ner 模型可用於識別命名實體(NE)。不過,該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。
限制和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集而來,我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
用於訓練和評估的數據集來自 CAPITEL競賽(IberLEF 2020)(子任務1)。
訓練過程
模型以16的批次大小和5e-5的學習率進行了5個epoch的訓練。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估
變量和指標
該模型在微調時最大化了F1分數。
評估結果
我們在CAPITEL-NERC測試集上針對標準多語言和單語言基線對 roberta-base-bne-capitel-ner 進行了評估:
模型 |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
更多詳細信息,請查看官方 GitHub倉庫 中的微調與評估腳本。
附加信息
作者
巴塞羅那超級計算中心(Barcelona Supercomputing Center)的文本挖掘單元(Text Mining Unit,TeMU)(bsc-temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化與人工智能國務秘書處(Spanish State Secretariat for Digitalization and Artificial Intelligence,SEDIA)所有(2022)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化與人工智能國務秘書處(SEDIA)在Plan-TL框架內提供資金支持。
引用信息
如果您使用此模型,請引用我們的 論文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型所帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
🔧 技術細節
信息表格
屬性 |
詳情 |
模型類型 |
基於RoBERTa架構的命名實體識別(NER)模型 |
訓練數據 |
CAPITEL競賽(IberLEF 2020)子任務1的數據集 |
提示信息
⚠️ 重要提示
在提交時,尚未採取措施來估計模型中嵌入的偏差。由於語料庫是通過網絡爬取收集的,模型可能存在偏差。
💡 使用建議
由於模型受訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。在使用時,請根據具體任務進行評估和調整。
📄 許可證
本模型採用 Apache許可證,版本2.0 進行許可。