🚀 斯瓦希里語微調的多語言BERT基礎模型(bert-base-multilingual-cased-finetuned-swahili)
斯瓦希里語微調的多語言BERT基礎模型 是一個 斯瓦希里語BERT模型,它通過在斯瓦希里語文本上對 bert-base-multilingual-cased 模型進行微調而得到。與多語言BERT相比,它在文本分類和命名實體識別數據集上表現出 更優的性能。
🚀 快速開始
模型描述
bert-base-multilingual-cased-finetuned-swahili 是在斯瓦希里語語料庫上對 bert-base-multilingual-cased 模型進行微調得到的。
預期用途和侷限性
如何使用
你可以使用Transformers庫的 pipeline 來使用這個模型進行掩碼標記預測。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-swahili')
>>> unmasker("Jumatatu, Bwana Kagame alielezea shirika la France24 huko [MASK] kwamba \"hakuna uhalifu ulitendwa\"")
[{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Paris kwamba hakuna uhalifu ulitendwa',
'score': 0.31642526388168335,
'token': 10728,
'token_str': 'Paris'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Rwanda kwamba hakuna uhalifu ulitendwa',
'score': 0.15753623843193054,
'token': 57557,
'token_str': 'Rwanda'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Burundi kwamba hakuna uhalifu ulitendwa',
'score': 0.07211585342884064,
'token': 57824,
'token_str': 'Burundi'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko France kwamba hakuna uhalifu ulitendwa',
'score': 0.029844321310520172,
'token': 10688,
'token_str': 'France'},
{'sequence': 'Jumatatu, Bwana Kagame alielezea shirika la France24 huko Senegal kwamba hakuna uhalifu ulitendwa',
'score': 0.0265930388122797,
'token': 38052,
'token_str': 'Senegal'}]
侷限性和偏差
該模型受限於其特定時間段內標註實體的新聞文章訓練數據集,可能無法在不同領域的所有用例中實現良好的泛化。
📚 詳細文檔
訓練數據
該模型在 斯瓦希里語CC - 100 上進行了微調。
訓練過程
該模型在單個NVIDIA V100 GPU上進行訓練。
測試集評估結果(F分數,5次運行的平均值)
數據集 |
多語言BERT F1 |
斯瓦希里語BERT F1 |
MasakhaNER |
86.80 |
89.36 |
BibTeX引用和引用信息
作者:David Adelani