🚀 西班牙RoBERTa-large模型,基於BNE微調用於西班牙問答語料庫(SQAC)
本項目的模型是基於西班牙國家圖書館(BNE)的大規模語料庫預訓練的RoBERTa-large模型,並針對西班牙問答語料庫(SQAC)進行了微調。該模型可用於抽取式問答任務,為西班牙語言的問答場景提供了有效的解決方案。
🚀 快速開始
以下是使用該模型進行問答的示例代碼:
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
✨ 主要特性
- 語言適配:專為西班牙語設計,基於大規模西班牙語語料庫預訓練,對西班牙語的理解和處理能力更強。
- 微調優化:針對西班牙問答語料庫(SQAC)進行了微調,在問答任務上表現出色。
- 性能優越:在SQAC測試集上的F1分數達到了82.02,優於多個基線模型。
📦 安裝指南
暫未提供具體安裝步驟,可參考Hugging Face的相關文檔進行安裝。
💻 使用示例
基礎用法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
📚 詳細文檔
模型描述
roberta-large-bne-sqac 是一個用於西班牙語的問答(QA)模型,它是在 roberta-large-bne 模型的基礎上進行微調得到的。roberta-large-bne 是一個 RoBERTa 大型模型,使用了迄今為止已知的最大西班牙語語料庫進行預訓練,該語料庫共有570GB的乾淨且去重的文本,這些文本是從西班牙國家圖書館(Biblioteca Nacional de España)在2009年至2019年期間進行的網絡爬取中收集並處理得到的。
預期用途和限制
roberta-large-bne-sqac 模型可用於抽取式問答任務。但該模型受其訓練數據集的限制,可能無法在所有用例中都表現良好。
限制和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬取技術收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
訓練數據
我們使用了名為 SQAC語料庫 的西班牙語問答數據集進行訓練和評估。
訓練過程
該模型以16的批量大小和1e-5的學習率進行了5個epoch的訓練。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估結果
我們在SQAC測試集上對 roberta-large-bne-sqac 模型與標準的多語言和單語言基線模型進行了評估:
模型 |
SQAC (F1) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
更多詳細信息,請查看官方 GitHub倉庫 中的微調與評估腳本。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 plantl-gob-es@bsc.es
版權
版權歸西班牙數字化與人工智能國務秘書處(SEDIA)所有(2022)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化與人工智能國務秘書處(SEDIA)在Plan-TL框架內資助。
引用信息
如果您使用此模型,請引用我們的 論文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型所產生的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者(SEDIA - 數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
📄 許可證
本項目採用 Apache許可證,版本2.0 進行許可。