roberta-large-bne-capitel-pos開源西班牙語詞性標註模型

首頁

Roberta Large Bne Capitel Pos

由PlanTL-GOB-ES開發

基於西班牙國家圖書館(BNE)數據訓練的RoBERTa-large模型，針對CAPITEL詞性標註數據集微調的西班牙語詞性標註模型

序列標註

Transformers

支持多種語言開源協議:Apache-2.0 #西班牙語詞性標註 #高精度F1-98.56 #BNE語料訓練

下載量 186

發布時間 : 3/2/2022

模型概述

該模型專門用於西班牙語文本的詞性標註任務，基於大規模西班牙語語料庫預訓練，並在CAPITEL-POS數據集上微調

模型特點

大規模預訓練數據

基於570GB經清洗和去重的西班牙語文本預訓練，數據來源於西班牙國家圖書館2009-2019年的網絡爬取數據

高性能詞性標註

在CAPITEL-POS測試集上達到98.56的F1值，優於同類西班牙語模型

專業領域優化

使用IberLEF 2020 CAPITEL競賽數據集進行微調，適合處理西班牙語專業文本

模型能力

西班牙語詞性標註

文本標記分類

自然語言處理

使用案例

文本分析

新聞文本分析

分析西班牙語新聞文本中的詞性分佈

準確識別新聞文本中的各類詞性

學術研究

用於西班牙語語言學研究和教學

提供專業級的詞性標註結果

自然語言處理應用

信息提取系統

作為信息提取系統的預處理組件

提高後續處理任務的準確性

🚀 西班牙語RoBERTa-large模型：基於BNE數據訓練並針對CAPITEL詞性標註數據集微調

本模型是針對西班牙語的詞性標註（POS）模型，在BNE數據上進行預訓練，並針對CAPITEL詞性標註數據集進行微調。它能夠準確地為西班牙語句子中的每個詞彙標註詞性，為自然語言處理任務提供基礎支持。

🚀 快速開始

模型描述

roberta-large-bne-capitel-pos 是一個用於西班牙語的詞性標註（POS）模型，它基於 roberta-large-bne 模型進行微調。而 roberta-large-bne 是一個 RoBERTa 大型模型，它使用了迄今為止已知的最大西班牙語語料庫進行預訓練，該語料庫包含總計570GB的乾淨且去重的文本，這些文本是從西班牙國家圖書館（Biblioteca Nacional de España）在2009年至2019年期間進行的網絡爬取數據中處理而來。

預期用途和限制

roberta-large-bne-capitel-pos 模型可用於對西班牙語文本進行詞性標註（POS）。不過，該模型受其訓練數據集的限制，可能無法在所有用例中都有良好的泛化表現。

如何使用

以下是使用此模型的示例代碼：

from transformers import pipeline
from pprint import pprint

nlp = pipeline("token-classification", model="PlanTL-GOB-ES/roberta-large-bne-capitel-pos")
example = "El alcalde de Vigo, Abel Caballero, ha comenzado a colocar las luces de Navidad en agosto."

pos_results = nlp(example)
pprint(pos_results)

限制和偏差

在提交時，尚未採取措施來估計模型中嵌入的偏差。然而，我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的，我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究，如果完成研究，此模型卡片將進行更新。

訓練

訓練數據

使用的數據集來自 2020年IberLEF的CAPITEL競賽（子任務2）。

訓練過程

該模型以16的批量大小和3e - 5的學習率進行了5個週期的訓練。然後，我們使用相應開發集上的下游任務指標選擇了最佳檢查點，並在測試集上進行了評估。

評估

變量和指標

此模型在微調時以最大化F1分數為目標。

評估結果

我們在CAPITEL - POS測試集上對 roberta-large-bne-capitel-pos 模型與標準的多語言和單語言基線模型進行了評估：

模型	CAPITEL - POS (F1)
roberta-large-bne-capitel-pos	98.56
roberta-base-bne-capitel-pos	98.46
BETO	98.36
mBERT	98.39
BERTIN	98.47
ELECTRA	98.16

更多詳細信息，請查看官方 GitHub倉庫中的微調與評估腳本。

附加信息

作者

巴塞羅那超級計算中心的文本挖掘單元（TeMU）（bsc - temu@bsc.es）

聯繫信息

如需更多信息，請發送電子郵件至 <plantl - gob - es@bsc.es>

版權

版權歸西班牙數字化與人工智能國務秘書處（SEDIA）所有（2022）

許可信息

Apache許可證，版本2.0

資金支持

這項工作由西班牙數字化與人工智能國務秘書處（SEDIA）在Plan - TL框架內提供資金支持。

引用信息

如果您使用此模型，請引用我們的論文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}