🚀 西班牙RoBERTa-base模型:基於BNE預訓練,針對西班牙問答語料庫(SQAC)微調
本模型基於 roberta-base-bne 模型微調而來,用於解決西班牙語的問答任務,在相關語料庫上展現出了良好的性能。
🚀 快速開始
代碼示例
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
✨ 主要特性
- 語言適配:專為西班牙語問答任務設計,基於大規模西班牙語語料庫預訓練。
- 微調優化:在西班牙問答語料庫(SQAC)上進行微調,提升問答性能。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
📚 詳細文檔
模型描述
roberta-base-bne-sqac 是一個用於西班牙語的問答(QA)模型,它基於 roberta-base-bne 模型微調而來。而 roberta-base-bne 是一個 RoBERTa 基礎模型,使用了截至目前已知的最大西班牙語語料庫進行預訓練,該語料庫包含總計 570GB 的乾淨且去重的文本,這些文本是從西班牙國家圖書館(Biblioteca Nacional de España)在 2009 年至 2019 年期間進行的網絡爬取數據中處理而來。
預期用途和限制
roberta-base-bne-sqac 模型可用於抽取式問答。不過,該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。
侷限性和偏差
在提交時,尚未採取措施來評估模型中嵌入的偏差。但我們深知,由於語料庫是通過在多個網絡源上進行爬取技術收集的,我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
訓練數據
我們使用了名為 SQAC語料庫 的西班牙語問答數據集進行訓練和評估。
訓練過程
該模型以 16 的批量大小和 5e - 5 的學習率訓練了 5 個 epoch。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,最後在測試集上進行評估。
評估結果
我們在 SQAC 測試集上針對標準的多語言和單語言基線對 roberta-base-bne-sqac 進行了評估:
模型 |
SQAC (F1) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
更多詳細信息,請查看官方 GitHub 倉庫 中的微調與評估腳本。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc - temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 <plantl - gob - es@bsc.es>
版權
版權歸西班牙數字化與人工智能國務秘書處(SEDIA)所有(2022)
許可信息
Apache 許可證,版本 2.0
資金支持
這項工作由西班牙數字化與人工智能國務秘書處(SEDIA)在 Plan - TL 框架內資助。
引用信息
如果您使用此模型,請引用我們的 論文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型所產生的風險是他們的責任,並且在任何情況下,都應遵守適用的法規,包括有關人工智能使用的法規。
在任何情況下,模型的所有者(SEDIA - 數字化與人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
🔧 技術細節
文檔未提供具體技術細節,暫不提供。
📄 許可證
本模型使用 Apache 許可證,版本 2.0。