🚀 bert-medium-amharic
このモデルは、bert-medium と同じアーキテクチャを持ち、oscar、mc4、および amharic-sentences-corpus データセットのアムハラ語サブセットを使用してゼロから事前学習されました。合計 29000万トークン で学習されています。トークナイザーも同じテキストコーパスでゼロから学習され、語彙サイズは28kです。
評価セットでは以下の結果を達成しています。
このモデルは 4050万パラメータ しか持っていませんが、同じアムハラ語評価セットでは、パラメータが7倍多い 2億7900万
の xlm-roberta-base 多言語モデルと同等の性能を発揮します。
🚀 クイックスタート
このモデルをマスク言語モデリングのパイプラインで直接使用することができます。
基本的な使用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/bert-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።")
[{'score': 0.5135582089424133,
'token': 9345,
'token_str': 'ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል ።'},
{'score': 0.2923661470413208,
'token': 9617,
'token_str': 'ዓመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል ።'},
{'score': 0.09527599066495895,
'token': 9913,
'token_str': 'አመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል ።'},
{'score': 0.06960058212280273,
'token': 10898,
'token_str': 'አመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል ።'},
{'score': 0.019061630591750145,
'token': 28157,
'token_str': '##ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተዓመት ተቆጥሯል ።'}]
📚 ドキュメント
微調整
このモデルは、以下のアムハラ語の自然言語処理タスクで微調整され、評価されています。
- 感情分類
- データセット: amharic-sentiment
- コード: https://github.com/rasyosef/amharic-sentiment-classification
- 固有表現認識
微調整後のモデル性能
報告されているF1スコアはマクロ平均です。
モデル |
サイズ (#パラメータ) |
パープレキシティ |
感情分類 (F1) |
固有表現認識 (F1) |
bert-medium-amharic |
40.5M |
13.74 |
0.83 |
0.68 |
bert-small-amharic |
27.8M |
15.96 |
0.83 |
0.68 |
bert-mini-amharic |
10.7M |
22.42 |
0.81 |
0.64 |
bert-tiny-amharic |
4.18M |
71.52 |
0.79 |
0.54 |
xlm-roberta-base |
279M |
|
0.83 |
0.73 |
am-roberta |
443M |
|
0.82 |
0.69 |
📦 モデル情報
Property |
Details |
library_name |
transformers |
データセット |
oscar、mc4、rasyosef/amharic-sentences-corpus |
言語 |
am |
評価指標 |
perplexity |
pipeline_tag |
fill-mask |
ウィジェット |
- text: ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል። example_title: Example 1 - text: ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር [MASK] ግዢ በእጅጉ ጨምሯል። example_title: Example 2 - text: ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ [MASK] ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው። example_title: Example 3 - text: ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል [MASK] እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው። example_title: Example 4 |