🚀 加泰罗尼亚语词性标注微调版BERT模型(roberta-base-ca)
本模型基于RoBERTa架构,在加泰罗尼亚语语料上预训练后,针对词性标注(POS)任务进行微调。它能有效对加泰罗尼亚语文本进行词性标注,为相关自然语言处理任务提供支持。
🚀 快速开始
代码示例
from transformers import pipeline
from pprint import pprint
nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
pos_results = nlp(example)
pprint(pos_results)
✨ 主要特性
- 针对性微调:基于roberta-base-ca模型,针对加泰罗尼亚语的词性标注任务进行微调,更适配该语言的词性标注需求。
- 高性能表现:在Ancora-ca-POS测试集上,F1分数达到98.93,优于mBERT、XLM - RoBERTa和WikiBERT-ca等模型。
🔧 技术细节
训练数据
使用来自通用依存树库的加泰罗尼亚语词性标注数据集,即 Ancora-ca-pos 进行训练和评估。
训练过程
模型以16的批量大小和5e - 5的学习率训练5个周期。然后,在相应的开发集上使用下游任务指标选择最佳检查点,并在测试集上进行评估。
评估指标
该模型在微调过程中最大化F1分数。
评估结果
在Ancora-ca-ner测试集上,与标准的多语言和单语言基线模型进行对比评估,结果如下:
模型 |
AnCora-Ca-POS (F1) |
roberta-base-ca-cased-pos |
98.93 |
mBERT |
98.82 |
XLM-RoBERTa |
98.89 |
WikiBERT-ca |
97.60 |
更多详细信息,请查看官方GitHub仓库中的微调与评估脚本。
📄 许可证
本模型遵循Apache许可证2.0版。
👨💻 作者信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至aina@bsc.es
版权信息
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
资金支持
本工作由[加泰罗尼亚政府副主席兼数字与领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在AINA项目框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良失真。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。