🚀 bert-base-multilingual-cased-masakhaner
distilbert-base-multilingual-cased-masakhanerは、微調整されたBERTベースモデルに基づく、9つのアフリカ言語(ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語)用の初の固有表現認識モデルです。このモデルは、日付と時間(DATE)、場所(LOC)、組織(ORG)、人物(PER)の4種類のエンティティを認識するように訓練されています。
🚀 クイックスタート
このモデルは、Transformersのpipelineを使用して固有表現認識(NER)に利用できます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主な機能
- 多言語対応:9つのアフリカ言語に対応した固有表現認識モデルです。
- エンティティ認識:日付と時間、場所、組織、人物の4種類のエンティティを認識できます。
📦 インストール
このモデルを使用するには、Transformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
📚 ドキュメント
モデルの詳細
distilbert-base-multilingual-cased-masakhanerは、微調整されたBERTベースモデルに基づく、9つのアフリカ言語用の初の固有表現認識モデルです。具体的には、このモデルはdistilbert-base-multilingual-casedモデルを、Masakhane MasakhaNERデータセットから取得したアフリカ言語データセットの集約データで微調整したものです。
想定される使用法と制限
使用方法
このモデルは、Transformersのpipelineを使用して固有表現認識に利用できます。
制限とバイアス
このモデルは、特定の期間のエンティティがアノテーションされたニュース記事のトレーニングデータセットに制限されています。このため、異なるドメインのすべての使用ケースに対して汎化性能が高いとは限りません。
トレーニングデータ
このモデルは、9つのアフリカ言語の固有表現認識データセット(ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語)であるMasakhane MasakhaNERデータセットで微調整されています。
トレーニングデータセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続して出現する場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセット内の各トークンは、以下のクラスのいずれかに分類されます。
属性 |
詳情 |
モデルタイプ |
distilbert-base-multilingual-cased-masakhaner |
トレーニングデータ |
9つのアフリカ言語の固有表現認識データセット(ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語)のMasakhaNERデータセット |
トレーニング手順
このモデルは、単一のNVIDIA V100 GPU上で、元のMasakhaNER論文で推奨されているハイパーパラメータを使用してトレーニングされました。この論文では、MasakhaNERコーパスでモデルのトレーニングと評価が行われています。
テストセットの評価結果(F値)
言語 |
F1値 |
hau |
88.88 |
ibo |
84.87 |
kin |
74.19 |
lug |
78.43 |
luo |
73.32 |
pcm |
87.98 |
swa |
86.20 |
wol |
64.67 |
yor |
78.10 |
BibTeXエントリと引用情報
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}