afroxlmr-large-ner-masakhaner-1.0_2.0オープンソースモデル - 21種類のアフリカ言語の命名实体認識をサポート

ホーム

Afroxlmr Large Ner Masakhaner 1.0 2.0

masakhaneによって開発

21のアフリカ言語向け固有表現認識モデル。Davlan/afro-xlmr-largeモデルをファインチューニングしており、日付、場所、組織、人名の4種類のエンティティを認識可能。

シーケンスラベリング

Transformers

その他#アフリカ言語NER #多言語エンティティ認識 #ニュース分野エンティティ注釈

ダウンロード数 416

リリース時間 : 12/15/2022

モデル概要

このモデルはアフリカ言語に特化した固有表現認識（NER）モデルで、21のアフリカ言語をカバーし、日付と時間（DATE）、場所（LOC）、組織（ORG）、人名（PER）の4種類のエンティティを認識できます。

モデル特徴

多言語サポート

21のアフリカ言語の固有表現認識をサポートし、幅広いアフリカ言語のニーズに対応。

高性能

MasakhaNER 1.0と2.0データセットで優れた性能を発揮し、平均F1スコアはそれぞれ85.1と87.7を達成。

エンティティタイプの豊富さ

日付、場所、組織、人名の4種類のエンティティを認識可能で、多様なNERニーズに対応。

モデル能力

固有表現認識

多言語テキスト処理

使用事例

ニュース分析

アフリカニュースのエンティティ抽出

アフリカ言語のニュース記事から主要なエンティティ（人名、組織、場所など）を抽出。

高い精度のエンティティ認識を実現し、複数の言語でF1スコア90%以上。

言語学研究

アフリカ言語のエンティティ注釈

言語学研究におけるアフリカ言語のエンティティ注釈と分析に使用。

高品質なエンティティ注釈データを提供し、言語学研究を支援。

🚀 masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0

masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0は、21のアフリカ言語に対応した**固有表現認識（Named Entity Recognition, NER）**モデルです。具体的には、このモデルはDavlan/afro - xlmr - largeモデルを、MasakhaNERデータセットの2つのバージョン、つまりMasakhaNER 1.0とMasakhaNER 2.0から得られたアフリカ言語データセットの集約データでファインチューニングしたものです。対象となる言語は以下の通りです。

アムハラ語 (Amharic)
バンバラ語 (bam)
ゴマラ語 (bbj)
エウェ語 (ewe)
フォン語 (fon)
ハウサ語 (hau)
イボ語 (ibo)
キニヤルワンダ語 (kin)
ルガンダ語 (lug)
ドロ語 (luo)
モッシ語 (mos)
チチェワ語 (nya)
ナイジェリアピジン語
ショナ語 (sna)
スワヒリ語 (swą)
セツワナ語 (tsn)
トウィ語 (twi)
ウォロフ語 (wol)
イシコサ語 (xho)
ヨルバ語 (yor)
イシズール語 (zul)

このモデルは、日付と時間 (DATE)、場所 (LOC)、組織 (ORG)、人物 (PER) の4種類のエンティティを認識するように訓練されています。

🚀 クイックスタート

使い方

Transformersのpipelineを使用して、このモデルをNERに利用することができます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
model = AutoModelForTokenClassification.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

MasakhaNERでの評価結果 (F値)

このモデルは、MasakhaNER 1.0とMasakhaNER 2.0のテストセットで評価されています。

言語	MasakhaNER 1.0	MasakhaNER 2.0
amh	80.5
bam		83.1
bbj		76.6
ewe		89.6
fon		83.8
hau	90.3	87.5
ibo	89.5	93.5
kin	82.0	87.6
lug	87.1	89.7
luo	80.8	82.5
mos		75.5
nya		92.7
pcm	91.1	90.9
sna		96.5
swa	88.5	93.4
tsn		90.3
twi		81.3
wol	72.7	87.3
xho		90.0
yor	88.1	90.5
zul		91.3
平均	85.1	87.7

制限とバイアス

このモデルは、特定の期間のエンティティがアノテーションされたニュース記事の訓練データセットに制限されています。このため、異なるドメインのすべてのユースケースに対してうまく汎化できない可能性があります。

訓練データ

このモデルは、MasakhaNER 1.0とMasakhaNER 2.0のデータセットの集約データでファインチューニングされています。

訓練データセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットにおいて、各トークンは以下のクラスのいずれかに分類されます。

略称	説明
O	固有表現の外
B - DATE	別のDATEエンティティの直後のDATEエンティティの開始
I - DATE	DATEエンティティ
B - PER	別の人物名の直後の人物名の開始
I - PER	人物名
B - ORG	別の組織の直後の組織の開始
I - ORG	組織
B - LOC	別の場所の直後の場所の開始
I - LOC	場所

訓練手順

このモデルは、単一のNVIDIA V100 GPU上で、元のMasakhaNER論文で推奨されているハイパーパラメータを使用して訓練されています。この論文では、MasakhaNERコーパスでモデルを訓練し、評価しています。

BibTeXエントリと引用情報

@article{Adelani2022MasakhaNER2A,
  title={MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition},
  author={David Ifeoluwa Adelani and Graham Neubig and Sebastian Ruder and Shruti Rijhwani and Michael Beukman and Chester Palen-Michel and Constantine Lignos and Jesujoba Oluwadara Alabi and Shamsuddeen Hassan Muhammad and Peter Nabende and Cheikh M. Bamba Dione and Andiswa Bukula and Rooweither Mabuya and Bonaventure F. P. Dossou and Blessing K. Sibanda and Happy Buzaaba and Jonathan Mukiibi and Godson Kalipe and Derguene Mbaye and Amelia Taylor and Fatoumata Kabore and Chris C. Emezue and Anuoluwapo Aremu and Perez Ogayo and Catherine W. Gitau and Edwin Munkoh-Buabeng and Victoire Memdjokam Koagne and Allahsera Auguste Tapo and Tebogo Macucwa and Vukosi Marivate and Elvis Mboning and Tajuddeen R. Gwadabe and Tosin P. Adewumi and Orevaoghene Ahia and Joyce Nakatumba-Nabende and Neo L. Mokono and Ignatius M Ezeani and Chiamaka Ijeoma Chukwuneke and Mofetoluwa Adeyemi and Gilles Hacheme and Idris Abdulmumin and Odunayo Ogundepo and Oreen Yousuf and Tatiana Moteu Ngoli and Dietrich Klakow},
  journal={ArXiv},
  year={2022},
  volume={abs/2210.12391}
}