🚀 加泰羅尼亞語BERTa(roberta-base-ca)針對文本蘊含任務微調模型
本模型是基於RoBERTa架構,針對加泰羅尼亞語的文本蘊含(Textual Entailment)任務進行微調的模型,能有效識別加泰羅尼亞語文本之間的蘊含關係。
🚀 快速開始
如何使用
以下是使用該模型的示例代碼:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("text-classification", model="projecte-aina/roberta-base-ca-cased-te")
example = "M'agrada el sol i la calor. </s></s> A la Garrotxa plou molt."
te_results = nlp(example)
pprint(te_results)
✨ 主要特性
- 針對性微調:從roberta-base-ca模型微調而來,專門用於加泰羅尼亞語的文本蘊含任務。
- 基於公開語料:預訓練模型基於公開可用語料庫和爬蟲收集的中等規模語料進行訓練。
📚 詳細文檔
模型描述
roberta-base-ca-cased-te 是一個用於加泰羅尼亞語的文本蘊含(TE)模型,它是從roberta-base-ca模型微調而來,而roberta-base-ca是一個基於 RoBERTa 架構的基礎模型,在從公開可用語料庫和爬蟲收集的中等規模語料上進行了預訓練。
預期用途和限制
- 預期用途:該模型可用於識別加泰羅尼亞語文本之間的蘊含關係。
- 限制:模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化能力。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差。然而,我們深知由於語料是通過在多個網絡源上進行爬蟲收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成研究,此模型卡片將進行更新。
訓練
訓練數據
我們使用了加泰羅尼亞語的文本蘊含數據集 TE-ca 進行訓練和評估。
訓練過程
模型以16的批量大小和5e-5的學習率進行了5個epoch的訓練。然後,我們使用相應開發集上的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估
變量和指標
該模型在微調過程中最大化了準確率。
評估結果
我們在TE-ca測試集上針對標準多語言和單語言基線對roberta-base-ca-cased-te進行了評估:
模型 |
TE-ca(準確率) |
BERTa |
79.12 |
mBERT |
74.78 |
XLM-RoBERTa |
75.44 |
更多詳細信息,請查看官方 GitHub倉庫 中的微調與評估腳本。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至aina@bsc.es
版權
版權所有 (c) 2022 巴塞羅那超級計算中心文本挖掘單元
許可信息
Apache許可證,版本2.0
資金支持
這項工作由 [加泰羅尼亞政府副主席兼數字政策與領土部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 AINA項目 的框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)向其他方部署或提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型所產生的風險並在任何情況下遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者和創建者(巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果承擔責任。
📄 許可證
本項目採用 Apache許可證,版本2.0 進行許可。