🚀 xlm-roberta-base-finetuned-hausa
xlm-roberta-base-finetuned-hausa 是一个基于豪萨语(Hausa)的模型,它通过在豪萨语文本上微调 xlm-roberta-base 模型而得到。相较于 XLM-RoBERTa 模型,它在文本分类和命名实体识别数据集上表现更优。
🚀 快速开始
模型描述
xlm-roberta-base-finetuned-hausa 是一个 豪萨语 RoBERTa 模型,通过在豪萨语文本上微调 xlm-roberta-base 模型获得。在文本分类和命名实体识别数据集上,它比 XLM-RoBERTa 模型有 更好的性能。
具体而言,该模型是在豪萨语语料库上微调的 xlm-roberta-base 模型。
预期用途与限制
如何使用
你可以使用 Transformers 库的 pipeline 对该模型进行掩码标记预测。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/xlm-roberta-base-finetuned-hausa')
>>> unmasker("Shugaban <mask> Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci")
[{'sequence': '<s> Shugaban kasa Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>',
'score': 0.8104371428489685,
'token': 29762,
'token_str': '▁kasa'},
{'sequence': '<s> Shugaban Najeriya Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.17371904850006104,
'token': 49173,
'token_str': '▁Najeriya'},
{'sequence': '<s> Shugaban kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.006917025428265333,
'token': 21221,
'token_str': '▁kasar'},
{'sequence': '<s> Shugaban Nigeria Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.005785710643976927,
'token': 72620,
'token_str': '▁Nigeria'},
{'sequence': '<s> Shugaban Kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.0010596115607768297,
'token': 170255,
'token_str': '▁Kasar'}]
局限性和偏差
该模型受限于其训练数据集,这些数据集是特定时间段内带有实体标注的新闻文章。因此,它可能无法在不同领域的所有用例中都有良好的泛化能力。
训练数据
该模型在 豪萨语 CC - 100 语料库上进行了微调。
训练过程
该模型在单块 NVIDIA V100 GPU 上进行训练。
测试集评估结果(F - 分数,5 次运行的平均值)
数据集 |
XLM - R F1 |
ha_roberta F1 |
[MasakhaNER](https://github.com/masakhane - io/masakhane - ner) |
86.10 |
91.47 |
VOA Hausa Textclass |
|
|
BibTeX 引用和引用信息
作者:David Adelani