xlm-roberta-large-masakhanerオープンソースモデル - 10種類のアフリカ言語の日付、場所などのエンティティを無料で識別する

ホーム

Xlm Roberta Large Masakhaner

Davlanによって開発

初の10種類のアフリカ言語に対応した固有表現認識モデルで、XLM - RoBERTa largeをベースに微調整され、日付、場所、組織、人物の4種類の固有表現を認識できます。

シーケンスラベリング

Transformers

#アフリカ言語の固有表現抽出 #多言語の固有表現認識 #XLM - RoBERTaの微調整

ダウンロード数 104

リリース時間 : 3/2/2022

モデル概要

このモデルはアフリカ言語に最適化された固有表現認識（NER）モデルで、MasakhaNERデータセットで微調整され、10種類のアフリカ言語のテキストの固有表現認識タスクを処理できます。

モデル特徴

多言語対応

10種類のアフリカ言語の固有表現認識をサポートし、アフリカ言語のNLPツールの空白を埋めます。

最先端の性能

MasakhaNERデータセットで現在最高のNER性能を達成し、F1スコアは最大で91.75（ハウサ語）です。

細粒度の固有表現分類

4種類の固有表現（DATE/LOC/ORG/PER）とその開始位置（B - /I - タグ）を認識できます。

モデル能力

アフリカ言語のテキスト処理

固有表現認識

多言語NLP

使用事例

ニュース分析

アフリカニュースの固有表現抽出

アフリカの各言語のニュース記事から人物、組織、場所などの重要な情報を自動的に抽出します。

F1スコア70.70 - 91.75（言語によって異なります）

異言語情報処理

多言語文書分析

複数のアフリカ言語が混在するテキストの固有表現情報を処理します。

🚀 xlm-roberta-large-masakhaner

xlm-roberta-large-masakhaner は、微調整されたXLM - RoBERTa largeモデルに基づく、10種類のアフリカ言語（アムハラ語、ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語）用の初の固有表現認識（Named Entity Recognition） モデルです。NERタスクにおいて最先端の性能を達成しています。日付と時間（DATE）、場所（LOC）、組織（ORG）、人物（PER）の4種類のエンティティを認識するように学習されています。

🚀 クイックスタート

このモデルは、Transformersの pipeline を使用してNERに利用できます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)

✨ 主な機能

10種類のアフリカ言語に対応した固有表現認識が可能です。
最先端の性能を持ち、4種類のエンティティを高精度に認識します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

制限事項とバイアス

このモデルは、特定の期間のエンティティがアノテーションされたニュース記事のトレーニングデータセットに制限されています。このため、異なるドメインのすべてのユースケースに対してうまく汎化できない可能性があります。

トレーニングデータ

このモデルは、10種類のアフリカ言語（アムハラ語、ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、ナイジェリアピジン語、スワヒリ語、ウォロフ語、ヨルバ語）のMasakhane MasakhaNER データセットで微調整されています。

トレーニングデータセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットでは、各トークンは以下のクラスのいずれかに分類されます。

略称	説明
O	固有表現の外
B - DATE	別のDATEエンティティの直後のDATEエンティティの開始
I - DATE	DATEエンティティ
B - PER	別の人物名の直後の人物名の開始
I - PER	人物名
B - ORG	別の組織の直後の組織の開始
I - ORG	組織
B - LOC	別の場所の直後の場所の開始
I - LOC	場所

トレーニング手順

このモデルは、単一のNVIDIA V100 GPU上で、元のMasakhaNER論文からの推奨ハイパーパラメータを使用してトレーニングされました。この論文では、MasakhaNERコーパスでモデルのトレーニングと評価が行われています。

テストセットの評価結果（F - スコア）

言語	F1 - スコア
amh	75.76
hau	91.75
ibo	86.26
kin	76.38
lug	84.64
luo	80.65
pcm	89.55
swa	89.48
wol	70.70
yor	82.05

BibTeXエントリと引用情報

@article{adelani21tacl,
    title = {Masakha{NER}: Named Entity Recognition for African Languages},
    author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
    journal = {Transactions of the Association for Computational Linguistics (TACL)},
    month = {},
    url = {https://arxiv.org/abs/2103.11811},
    year = {2021}
}