🚀 多语言大小写BERT基础模型微调豪萨语版
本模型是在豪萨语文本上对多语言大小写BERT基础模型进行微调得到的豪萨语BERT模型,在文本分类和命名实体识别数据集上,比多语言BERT模型表现更优。
🚀 快速开始
如何使用
你可以使用Transformers库的pipeline
来使用该模型进行掩码标记预测。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-hausa')
>>> unmasker("Shugaban [MASK] Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci")
[{'sequence':
'[CLS] Shugaban Nigeria Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]',
'score': 0.9762618541717529,
'token': 22045,
'token_str': 'Nigeria'},
{'sequence': '[CLS] Shugaban Ka Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.007239189930260181,
'token': 25444,
'token_str': 'Ka'},
{'sequence': '[CLS] Shugaban, Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.001990817254409194,
'token': 117,
'token_str': ','},
{'sequence': '[CLS] Shugaban Ghana Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.001566368737258017,
'token': 28682,
'token_str': 'Ghana'},
{'sequence': '[CLS] Shugabanmu Muhammadu Buhari ya amince da shawarar da ma [UNK] aikatar sufuri karkashin jagoranci [SEP]', 'score': 0.0009375187801197171,
'token': 11717,
'token_str': '##mu'}]
✨ 主要特性
多语言大小写BERT基础模型微调豪萨语版是通过在豪萨语文本上对多语言大小写BERT基础模型进行微调得到的豪萨语BERT模型。在文本分类和命名实体识别数据集上,它比多语言BERT模型具有更优的性能。
具体而言,该模型是在豪萨语语料库上微调的多语言大小写BERT基础模型。
🔧 技术细节
预期用途与局限性
局限性和偏差
该模型受限于其特定时间段内带实体标注的新闻文章训练数据集,可能无法在不同领域的所有用例中很好地泛化。
训练数据
该模型在豪萨语CC - 100上进行了微调。
训练过程
该模型在单块NVIDIA V100 GPU上进行训练。
测试集评估结果(F分数,5次运行的平均值)
BibTeX引用和引用信息
作者:David Adelani