🚀 加泰羅尼亞語問答模型roberta-base-ca-v2-cased-qa
本項目的roberta-base-ca-v2-cased-qa模型是針對加泰羅尼亞語的問答模型,它基於預訓練模型微調而來,能有效處理加泰羅尼亞語的問答任務,為加泰羅尼亞語的自然語言處理提供了有力支持。
🚀 快速開始
以下是使用該模型的示例代碼:
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
✨ 主要特性
📦 安裝指南
文檔中未提及具體安裝步驟,可參考 Hugging Face 官方文檔進行模型的安裝。
💻 使用示例
基礎用法
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
📚 詳細文檔
模型描述
roberta-base-ca-v2-cased-qa 是一個用於加泰羅尼亞語的問答(QA)模型,它基於 roberta-base-ca-v2 模型進行微調。而 roberta-base-ca-v2 是一個 RoBERTa 基礎模型,它在一個從中等規模的公開語料庫和網絡爬蟲收集的數據上進行了預訓練(更多細節可查看 roberta-base-ca-v2 模型卡片)。
預期用途和限制
roberta-base-ca-v2-cased-qa 模型可用於抽取式問答任務。不過,該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。但我們深知,由於語料庫是通過在多個網絡源上使用爬蟲技術收集的,我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究,如果研究完成,此模型卡片將進行更新。
訓練
訓練數據
我們使用了名為 CatalanQA 的加泰羅尼亞語問答數據集進行訓練和評估,並使用 XQuAD-ca 測試集進行評估。
訓練過程
該模型以 16 的批量大小和 5e-5 的學習率訓練了 5 個週期。然後,我們使用相應開發集中的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估
變量和指標
該模型在微調時最大化了 F1 分數。
評估結果
我們在 CatalanQA 和 XQuAD-ca 測試集上,將 roberta-base-ca-v2-cased-qa 與標準的多語言和單語言基線模型進行了評估:
模型 |
CatalanQA (F1/EM) |
XQuAD-Ca (F1/EM) |
roberta-base-ca-v2-cased-qa |
89.50/76.63 |
73.64/55.42 |
roberta-base-ca-cased-qa |
89.17/77.14 |
69.20/51.47 |
mBERT |
86.90/74.19 |
68.79/50.80 |
XLM-RoBERTa |
88.17/75.93 |
72.55/54.16 |
更多詳細信息,請查看官方 GitHub 倉庫 中的微調與評估腳本。
額外信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 aina@bsc.es
版權
版權所有 (c) 2022 巴塞羅那超級計算中心文本挖掘單元
許可信息
Apache 許可證,版本 2.0
資金支持
這項工作由 [加泰羅尼亞政府副主席兼數字和領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型所產生的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者和創建者(巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。