xlm-roberta-base-finetuned-ner-naijaオープンソースモデル - ナイジェリアピジン語の命名エンティティを高精度で識別

ホーム

Xlm Roberta Base Finetuned Ner Naija

mbeukmanによって開発

xlm-roberta-baseをベースに微調整された固有表現抽出モデルで、ナイジェリアピジン語に特化して最適化されています。

シーケンスラベリング

Transformers

その他#アフリカ言語の固有表現抽出 #ピジン語専用 #ニュースの固有表現抽出

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはMasakhaNERデータセットのナイジェリアピジン語部分で微調整され、テキスト内の固有表現（人名、場所、組織など）を識別するために使用されます。

モデル特徴

アフリカ言語の最適化

ナイジェリアピジン語に特化して微調整され、アフリカ言語の固有表現抽出モデルの空白を埋めます。

多クラス識別

日付、人名、組織、地理位置などのさまざまな固有表現のタイプを識別できます。

効率的な学習

単一のNVIDIA RTX3090グラフィックカードでわずか10 - 30分で微調整を完了できます。

モデル能力

テキストの固有表現抽出

多クラスの固有表現分類

アフリカ言語の処理

使用事例

自然言語処理の研究

解釈可能性の研究

アフリカ言語における多言語モデルの性能を研究するために使用されます。

転移学習の実験

他のアフリカ言語の固有表現抽出タスクに転移するための基礎モデルとして使用されます。

🚀 xlm-roberta-base-finetuned-ner-naija

これはトークン分類（具体的には固有表現抽出、NER）モデルで、MasakhaNER データセット（特にナイジェリアピジン語部分）で xlm-roberta-base をファインチューニングしたものです。

詳細情報や他の類似モデルについては、メインのGitHubリポジトリで確認できます。

🚀 クイックスタート

このモデル（または他のモデル）を使用するには、以下の手順に従い、モデル名を変更するだけです（出典）。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

✨ 主な機能

Transformerアーキテクチャに基づき、MasakhaNERデータセットでファインチューニングされています。
固有表現抽出タスクに使用でき、特にナイジェリアピジン語のニュース記事を処理するのに適しています。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

概要

このモデルはTransformerアーキテクチャに基づいており、MasakhaNERデータセットでファインチューニングされています。これは固有表現抽出用のデータセットで、主に10種類の異なるアフリカ言語のニュース記事が含まれています。

このモデルは50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e - 5です。このプロセスは5回繰り返され（異なるランダムシードを使用）、アップロードされたこのモデルはこの5つのシードの中で（テストセットでの総合F1スコアが）最も良い結果を示しました。

このモデルは私（Michael Beukman）が、ジョハネスブルのウィットウォータースランド大学でのプロジェクトの一環としてファインチューニングしました。2021年11月20日現在、これはバージョン1です。このモデルは Apacheライセンス、バージョン2.0 に従います。

連絡先と詳細情報

モデルに関する詳細情報（トレーニングスクリプト、詳細な結果、その他のリソースを含む）については、メインのGitHubリポジトリを訪問してください。このリポジトリで問題を投稿することで、私に連絡することができます。

トレーニングリソース

オープン性を維持し、使用したリソースを報告するために、ここでトレーニングプロセスに必要な時間と、このプロセスを再現するために必要な最小限のリソースを示します。NERデータセットで各モデルをファインチューニングするには10から30分かかり、NVIDIA RTX3090 GPU上で行われました。バッチサイズを32にするには、少なくとも14GBのGPUメモリが必要ですが、バッチサイズを1にすると、約6.5GBのVRAMでもこれらのモデルを実行できます。

データ

トレーニング、評価、テストデータセットは、MasakhaNER GitHub リポジトリから直接取得され、ほとんど前処理は行われていません。元のデータセットはすでに高品質であったためです。

このデータを使用する動機は、それが「最初の大規模、公開、高品質の10種類のアフリカ言語の固有表現抽出（NER）データセット」であることです（出典）。高品質なデータと、このデータセットを導入した論文が築いた基礎が、このデータセットを選択したさらなる理由です。評価時には、専用のテスト分割が使用され、そのデータ分布はトレーニングデータと同じです。したがって、これらの結果はこれらのモデルの汎化能力を直接示すものではありません。データの正確な分布については、こちらで詳細を確認できます。

想定用途

このモデルは自然言語処理の研究（例えば、解釈可能性や転移学習）に使用することを想定しています。汎化能力や性能に限界があるため、本番環境での使用はサポートされていません。特に、このモデルは人に影響を与える可能性のある重要な下流タスクには設計されておらず、以下に述べるようなモデルの限界が危害をもたらす可能性があります。

限界

このモデルは（比較的小さい）1つのデータセットでトレーニングされており、1つのタスク（NER）、1つのドメイン（ニュース記事）、特定の時間範囲をカバーしています。他のタスクに使用すると、結果が汎化せず、モデルの性能が低下したり、不公平/偏った結果が得られる可能性があります。このプロジェクトの目的は転移学習の研究ですが、トレーニングされていない言語でのモデルの性能は確かに影響を受けます。

このモデルはxlm - roberta - baseを起点としているため（特定の言語でのドメイン適応ファインチューニングが行われている可能性もあります）、このベースモデルの限界がこのモデルにも当てはまる可能性があります。これらの限界には、大部分のトレーニングデータの主流な見解に偏っていること、根拠が不足していること、他の言語での性能が低いこと（トレーニングデータの不均衡が原因かもしれません）が含まれる場合があります。

Adelaniら（2021）が示しているように、一般的に、モデルは3単語以上のエンティティや、トレーニングデータに含まれていないエンティティの処理に苦労します。これにより、モデルは複数の単語からなる人名を認識できない傾向があり、結果に偏りが生じる可能性があります。同様に、（異なる言語などの理由で）まれな名前はトレーニングデータに含まれていないため、予測されることが少なくなります。

さらに、このモデルは実践で検証されていません。予期どおりに動作するかどうかを検証せずに使用すると、他のより微妙な問題が発生する可能性があります。

プライバシーと倫理的な考慮事項

データは公開されているニュースソースからのみ取得されており、利用可能なデータは公衆人物や報道を許可した人に関するもののみであるはずです。詳細については、元のMasakhaNER論文を参照してください。

このモデルをファインチューニングする過程で、明確な倫理的な考慮や調整は行われていません。

指標

言語適応モデルは、（ほとんどの場合）xlm - roberta - baseを起点とするモデルよりも性能が優れています。私たちの主な指標は、すべてのNERクラスの総合F1スコアです。

これらの指標はMasakhaNERテストセットで算出されたものです。したがって、データ分布はトレーニングセットと似ており、これらの結果はこれらのモデルの汎化能力を直接示すものではありません。

異なるシードから転移学習を行った場合、転移結果に大きな差があることがわかりました（5種類の異なるシードをテスト）。これは、転移学習のファインチューニングプロセスが不安定である可能性を示しています。

これらの指標は、以前の研究と一致させ、研究を容易にするために選択されました。他の目的には、他のより適切な指標を使用する必要があるかもしれません。

注意事項と提案

一般的に、このモデルは「日付」カテゴリでの性能が他のカテゴリよりも低いため、日付が重要な要素である場合は、この問題を考慮して解決する必要があります。例えば、より多くのデータを収集してアノテーションすることが考えられます。

モデル構造

以下は、この特定のモデルと私たちがトレーニングした他のモデルとの比較におけるいくつかの性能詳細です。

これらのすべての指標はテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのクラスの平均で、後の4つの列はカテゴリごとの性能データを提供しています。

このモデルは、トークンに対して以下のラベルを予測できます（出典）。

略称	説明
O	固有表現以外
B - DATE	別の日付エンティティの直後に続く日付エンティティの開始
I - DATE	日付エンティティ
B - PER	別の人名の直後に続く人名の開始
I - PER	人名
B - ORG	別の組織の直後に続く組織の開始
I - ORG	組織
B - LOC	別の場所の直後に続く場所の開始
I - LOC	場所

モデル名	起点	評価/ファインチューニング言語	F1	精度	再現率	F1（日付）	F1（場所）	F1（組織）	F1（人名）
[xlm - roberta - base - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - naija)（このモデル）	[base](https://huggingface.co/xlm - roberta - base)	pcm	88.89	88.13	89.66	92.00	87.00	82.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - naija)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	pcm	88.06	87.04	89.12	90.00	88.00	81.00	92.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - naija)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	pcm	89.12	87.84	90.42	90.00	89.00	82.00	94.00