🚀 xlm-roberta-large-masakhaner
xlm-roberta-large-masakhaner は、微調整されたXLM - RoBERTa largeモデルに基づく、10種類のアフリカ言語(アムハラ語、ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語)用の初の固有表現認識(Named Entity Recognition) モデルです。NERタスクにおいて最先端の性能を達成しています。日付と時間(DATE)、場所(LOC)、組織(ORG)、人物(PER)の4種類のエンティティを認識するように学習されています。
🚀 クイックスタート
このモデルは、Transformersの pipeline を使用してNERに利用できます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主な機能
- 10種類のアフリカ言語に対応した固有表現認識が可能です。
- 最先端の性能を持ち、4種類のエンティティを高精度に認識します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
📚 ドキュメント
制限事項とバイアス
このモデルは、特定の期間のエンティティがアノテーションされたニュース記事のトレーニングデータセットに制限されています。このため、異なるドメインのすべてのユースケースに対してうまく汎化できない可能性があります。
トレーニングデータ
このモデルは、10種類のアフリカ言語(アムハラ語、ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語)のMasakhane MasakhaNER データセットで微調整されています。
トレーニングデータセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットでは、各トークンは以下のクラスのいずれかに分類されます。
略称 |
説明 |
O |
固有表現の外 |
B - DATE |
別のDATEエンティティの直後のDATEエンティティの開始 |
I - DATE |
DATEエンティティ |
B - PER |
別の人物名の直後の人物名の開始 |
I - PER |
人物名 |
B - ORG |
別の組織の直後の組織の開始 |
I - ORG |
組織 |
B - LOC |
別の場所の直後の場所の開始 |
I - LOC |
場所 |
トレーニング手順
このモデルは、単一のNVIDIA V100 GPU上で、元のMasakhaNER論文 からの推奨ハイパーパラメータを使用してトレーニングされました。この論文では、MasakhaNERコーパスでモデルのトレーニングと評価が行われています。
テストセットの評価結果(F - スコア)
言語 |
F1 - スコア |
amh |
75.76 |
hau |
91.75 |
ibo |
86.26 |
kin |
76.38 |
lug |
84.64 |
luo |
80.65 |
pcm |
89.55 |
swa |
89.48 |
wol |
70.70 |
yor |
82.05 |
BibTeXエントリと引用情報
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}