🚀 xlm-roberta-base-finetuned-hausa
xlm-roberta-base-finetuned-hausa 是一個基於豪薩語(Hausa)的模型,它通過在豪薩語文本上微調 xlm-roberta-base 模型而得到。相較於 XLM-RoBERTa 模型,它在文本分類和命名實體識別數據集上表現更優。
🚀 快速開始
模型描述
xlm-roberta-base-finetuned-hausa 是一個 豪薩語 RoBERTa 模型,通過在豪薩語文本上微調 xlm-roberta-base 模型獲得。在文本分類和命名實體識別數據集上,它比 XLM-RoBERTa 模型有 更好的性能。
具體而言,該模型是在豪薩語語料庫上微調的 xlm-roberta-base 模型。
預期用途與限制
如何使用
你可以使用 Transformers 庫的 pipeline 對該模型進行掩碼標記預測。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/xlm-roberta-base-finetuned-hausa')
>>> unmasker("Shugaban <mask> Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci")
[{'sequence': '<s> Shugaban kasa Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>',
'score': 0.8104371428489685,
'token': 29762,
'token_str': '▁kasa'},
{'sequence': '<s> Shugaban Najeriya Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.17371904850006104,
'token': 49173,
'token_str': '▁Najeriya'},
{'sequence': '<s> Shugaban kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.006917025428265333,
'token': 21221,
'token_str': '▁kasar'},
{'sequence': '<s> Shugaban Nigeria Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.005785710643976927,
'token': 72620,
'token_str': '▁Nigeria'},
{'sequence': '<s> Shugaban Kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.0010596115607768297,
'token': 170255,
'token_str': '▁Kasar'}]
侷限性和偏差
該模型受限於其訓練數據集,這些數據集是特定時間段內帶有實體標註的新聞文章。因此,它可能無法在不同領域的所有用例中都有良好的泛化能力。
訓練數據
該模型在 豪薩語 CC - 100 語料庫上進行了微調。
訓練過程
該模型在單塊 NVIDIA V100 GPU 上進行訓練。
測試集評估結果(F - 分數,5 次運行的平均值)
數據集 |
XLM - R F1 |
ha_roberta F1 |
[MasakhaNER](https://github.com/masakhane - io/masakhane - ner) |
86.10 |
91.47 |
VOA Hausa Textclass |
|
|
BibTeX 引用和引用信息
作者:David Adelani