🚀 阿姆哈拉語中型RoBERTa模型
本模型解決了阿姆哈拉語自然語言處理中缺乏高性能預訓練模型的問題,通過使用阿姆哈拉語語料從頭開始預訓練,為阿姆哈拉語的情感分類、命名實體識別等任務提供了強大的支持,提升了相關NLP任務的處理效果。
模型信息
屬性 |
詳情 |
庫名稱 |
transformers |
數據集 |
oscar、mc4、rasyosef/amharic - sentences - corpus |
語言 |
阿姆哈拉語(am) |
評估指標 |
困惑度(perplexity) |
任務類型 |
掩碼填充(fill - mask) |
示例展示
- 示例1:
- 文本:
ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ <mask> ተቆጥሯል።
- 示例2:
- 文本:
ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር <mask> ግዢ በእጅጉ ጨምሯል።
- 示例3:
- 文本:
ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ <mask> ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው።
- 示例4:
- 文本:
ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል <mask> እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው።
🚀 快速開始
模型概述
本模型與 [xlm - roberta - base](https://huggingface.co/FacebookAI/xlm - roberta - base) 架構相同,使用 oscar、mc4 和 [amharic - sentences - corpus](https://huggingface.co/datasets/rasyosef/amharic - sentences - corpus) 數據集的阿姆哈拉語子集從頭開始預訓練。總共使用了 2.9億個標記 進行訓練,分詞器也在相同的文本語料庫上從頭開始訓練,詞彙量為32k。模型在 A100 40GB GPU 上訓練了 15小時。
在評估集上,模型取得了以下結果:
儘管該模型只有 4200萬個參數,但在阿姆哈拉語情感分類和命名實體識別任務上,它的表現優於參數規模大7倍(2.79億個參數)的 [xlm - roberta - base](https://huggingface.co/FacebookAI/xlm - roberta - base) 多語言模型。
💻 使用示例
基礎用法
你可以直接使用該模型進行掩碼語言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/roberta-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ <mask> ተቆጥሯል።")
[{'score': 0.7755730152130127,
'token': 137,
'token_str': 'ዓመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል።'},
{'score': 0.09340856224298477,
'token': 346,
'token_str': 'አመት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል።'},
{'score': 0.08586721867322922,
'token': 217,
'token_str': 'ዓመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል።'},
{'score': 0.011987944133579731,
'token': 733,
'token_str': 'አመታት',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል።'},
{'score': 0.010042797774076462,
'token': 1392,
'token_str': 'ዓመቱ',
'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመቱ ተቆጥሯል።'}]
📚 詳細文檔
微調信息
本模型在以下阿姆哈拉語NLP任務上進行了微調並評估:
- 情感分類
- 數據集:[amharic - sentiment](https://huggingface.co/datasets/rasyosef/amharic - sentiment)
- 代碼:https://github.com/rasyosef/amharic - sentiment - classification
- 命名實體識別
- 數據集:[amharic - named - entity - recognition](https://huggingface.co/datasets/rasyosef/amharic - named - entity - recognition)
- 代碼:https://github.com/rasyosef/amharic - named - entity - recognition
微調模型性能
報告的F1分數為宏平均值。
模型 |
規模(參數數量) |
困惑度 |
情感分類(F1) |
命名實體識別(F1) |
roberta - base - amharic |
1.1億 |
8.08 |
0.88 |
0.78 |
roberta - medium - amharic |
4220萬 |
11.59 |
0.84 |
0.75 |
bert - medium - amharic |
4050萬 |
13.74 |
0.83 |
0.68 |
bert - small - amharic |
2780萬 |
15.96 |
0.83 |
0.68 |
bert - mini - amharic |
1070萬 |
22.42 |
0.81 |
0.64 |
bert - tiny - amharic |
418萬 |
71.52 |
0.79 |
0.54 |
xlm - roberta - base |
2.79億 |
|
0.83 |
0.73 |
afro - xlmr - base |
2.78億 |
|
0.83 |
0.75 |
afro - xlmr - large |
5.6億 |
|
0.86 |
0.76 |
am - roberta |
4.43億 |
|
0.82 |
0.69 |