🚀 bert-medium-amharic
bert-medium-amharic
模型與bert-medium架構相同,它使用oscar、mc4和amharic-sentences-corpus數據集中的阿姆哈拉語子集從頭開始預訓練,總共使用了2.9億個標記。分詞器也是在相同的文本語料庫上從頭開始訓練的,詞彙量為2.8萬。
模型信息
屬性 |
詳情 |
庫名稱 |
transformers |
數據集 |
oscar、mc4、rasyosef/amharic-sentences-corpus |
語言 |
阿姆哈拉語(am) |
評估指標 |
困惑度(perplexity) |
任務類型 |
掩碼填充(fill-mask) |
示例
- 示例1:
ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።
- 示例2:
ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር [MASK] ግዢ በእጅጉ ጨምሯል።
- 示例3:
ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ [MASK] ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው።
- 示例4:
ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል [MASK] እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው።
🚀 快速開始
你可以直接使用這個模型進行掩碼語言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/bert-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።")
[{'score': 0.5135582089424133,
'token': 9345,
'token_str': 'ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል ።'},
{'score': 0.2923661470413208,
'token': 9617,
'token_str': 'ዓመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል ።'},
{'score': 0.09527599066495895,
'token': 9913,
'token_str': 'አመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል ።'},
{'score': 0.06960058212280273,
'token': 10898,
'token_str': 'አመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል ።'},
{'score': 0.019061630591750145,
'token': 28157,
'token_str': '##ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተዓመት ተቆጥሯል ።'}]
📚 詳細文檔
微調
該模型在以下阿姆哈拉語NLP任務上進行了微調並評估:
情感分類
- 數據集:amharic-sentiment
- 代碼:https://github.com/rasyosef/amharic-sentiment-classification
命名實體識別
微調模型性能
報告的F1分數是宏平均值。
模型 |
大小(參數數量) |
困惑度 |
情感分類(F1) |
命名實體識別(F1) |
bert-medium-amharic |
4050萬 |
13.74 |
0.83 |
0.68 |
bert-small-amharic |
2780萬 |
15.96 |
0.83 |
0.68 |
bert-mini-amharic |
1070萬 |
22.42 |
0.81 |
0.64 |
bert-tiny-amharic |
418萬 |
71.52 |
0.79 |
0.54 |
xlm-roberta-base |
2.79億 |
|
0.83 |
0.73 |
am-roberta |
4.43億 |
|
0.82 |
0.69 |