bert-medium-amharic開源阿姆哈拉語模型 - 媲美大模型實現高效語言處理

首頁

Bert Medium Amharic

由rasyosef開發

基於bert-medium架構預訓練的阿姆哈拉語模型，參數量4050萬，在2.9億詞元上訓練，性能媲美更大規模的多語言模型。

大型語言模型

Transformers

其他#阿姆哈拉語NLP #低參數量高效 #填充掩碼

下載量 2,661

發布時間 : 6/16/2024

模型概述

專為阿姆哈拉語設計的BERT模型，支持填充掩碼任務，可用於文本理解和生成任務。

模型特點

高效參數利用

僅4050萬參數即達到與2.79億參數模型相當的阿姆哈拉語處理能力

專用分詞器

基於28k詞彙量的阿姆哈拉語專用分詞器

多數據集訓練

整合oscar、mc4和阿姆哈拉語句子語料庫進行訓練

模型能力

阿姆哈拉語文本理解

填充掩碼預測

下游任務微調

使用案例

自然語言處理

情感分析

對阿姆哈拉語文本進行情感傾向分類

F1分數0.83

命名實體識別

識別阿姆哈拉語文本中的人名、地名等實體

F1分數0.68

🚀 bert-medium-amharic

bert-medium-amharic模型與bert-medium架構相同，它使用oscar、mc4和amharic-sentences-corpus數據集中的阿姆哈拉語子集從頭開始預訓練，總共使用了2.9億個標記。分詞器也是在相同的文本語料庫上從頭開始訓練的，詞彙量為2.8萬。

模型信息

屬性	詳情
庫名稱	transformers
數據集	oscar、mc4、rasyosef/amharic-sentences-corpus
語言	阿姆哈拉語（am）
評估指標	困惑度（perplexity）
任務類型	掩碼填充（fill-mask）

示例

示例1：ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።
示例2：ባለፉት አምስት ዓመታት የአውሮጳ ሀገራት የጦር [MASK] ግዢ በእጅጉ ጨምሯል።
示例3：ኬንያውያን ከዳር እስከዳር በአንድ ቆመው የተቃውሞ ድምጻቸውን ማሰማታቸውን ተከትሎ የዜጎችን ቁጣ የቀሰቀሰው የቀረጥ ጭማሪ ሕግ ትናንት በፕሬዝደንት ዊልያም ሩቶ [MASK] ቢደረግም ዛሬም ግን የተቃውሞው እንቅስቃሴ መቀጠሉ እየተነገረ ነው።
示例4：ተማሪዎቹ በውድድሩ ካሸነፉበት የፈጠራ ስራ መካከል [MASK] እና ቅዝቃዜን እንደአየር ሁኔታው የሚያስተካክል ጃኬት አንዱ ነው።

🚀 快速開始

你可以直接使用這個模型進行掩碼語言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='rasyosef/bert-medium-amharic')
>>> unmasker("ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ [MASK] ተቆጥሯል።")

[{'score': 0.5135582089424133,
  'token': 9345,
  'token_str': 'ዓመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመት ተቆጥሯል ።'},
 {'score': 0.2923661470413208,
  'token': 9617,
  'token_str': 'ዓመታት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ ዓመታት ተቆጥሯል ።'},
 {'score': 0.09527599066495895,
  'token': 9913,
  'token_str': 'አመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመት ተቆጥሯል ።'},
 {'score': 0.06960058212280273,
  'token': 10898,
  'token_str': 'አመታት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተ አመታት ተቆጥሯል ።'},
 {'score': 0.019061630591750145,
  'token': 28157,
  'token_str': '##ዓመት',
  'sequence': 'ከሀገራቸው ከኢትዮጵያ ከወጡ ግማሽ ምዕተዓመት ተቆጥሯል ።'}]

📚 詳細文檔

微調

該模型在以下阿姆哈拉語NLP任務上進行了微調並評估：

情感分類

數據集：amharic-sentiment
代碼：https://github.com/rasyosef/amharic-sentiment-classification

命名實體識別

數據集：amharic-named-entity-recognition
代碼：https://github.com/rasyosef/amharic-named-entity-recognition

微調模型性能

報告的F1分數是宏平均值。

模型	大小（參數數量）	困惑度	情感分類（F1）	命名實體識別（F1）
bert-medium-amharic	4050萬	13.74	0.83	0.68
bert-small-amharic	2780萬	15.96	0.83	0.68
bert-mini-amharic	1070萬	22.42	0.81	0.64
bert-tiny-amharic	418萬	71.52	0.79	0.54
xlm-roberta-base	2.79億		0.83	0.73
am-roberta	4.43億		0.82	0.69