xlm - roberta - base - finetuned - ner - wolofオープンソースモデル - ウォロフ語の命名実体認識とマーキング分類を支援

ホーム

Xlm Roberta Base Finetuned Ner Wolof

mbeukmanによって開発

ウォロフ語の固有表現認識(NER)タスク向けのトークン分類モデル。xlm-roberta-baseをMasakhaNERデータセット（ウォロフ語部分）でファインチューニング

シーケンスラベリング

Transformers

その他#ウォロフ語NER #アフリカ言語処理 #ニュースエンティティ認識

ダウンロード数 49

リリース時間 : 3/2/2022

モデル概要

このモデルはウォロフ語の固有表現認識用Transformerモデルで、ニューステキスト中の人名、地名、組織名、日付などのエンティティ認識タスクを専門に処理します。

モデル特徴

アフリカ言語サポート

ウォロフ語に特化して最適化され、アフリカ言語NLPツールの空白を埋める

転移学習の応用

多言語事前学習モデルxlm-roberta-baseをファインチューニングし、言語横断的知識を効果的に活用

ニュース分野最適化

訓練データはニュース記事から取得し、この分野で最高のパフォーマンスを発揮

モデル能力

ウォロフ語テキスト中の固有表現を認識

人名、地名、組織名、日付などのエンティティタイプを区別

ニュース分野のテキスト内容を処理

使用事例

自然言語処理研究

アフリカ言語NLP研究

ウォロフ語の言語特性や言語横断的転移学習効果の研究に使用

固有表現認識技術検証

Transformerアーキテクチャの低リソース言語における性能を検証

🚀 xlm-roberta-base-finetuned-ner-wolof

このモデルは、トークン分類（具体的には固有表現抽出、NER）を行うモデルです。xlm-roberta-base を MasakhaNER データセットのウォロフ語部分でファインチューニングしたものです。

より詳細な情報や、他の類似モデルについては、メインのGithubリポジトリを参照してください。

✨ 主な機能

このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされています。MasakhaNERは、10種類のアフリカ言語のニュース記事を主に含む固有表現抽出データセットです。
モデルは50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。このプロセスを5回（異なるランダムシードで）繰り返し、アップロードされたこのモデルは、5つのシードの中で最良の性能を示しました（テストセットでの集計F1スコア）。

📦 インストール

このセクションでは、インストールに関する具体的なコマンドが原ドキュメントに記載されていないため、省略します。

💻 使用例

基本的な使用法

# このコードは、このモデル（または他のモデル）を使用する方法を示しています。モデル名を変更するだけで使用できます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-wolof'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "SAFIYETU BÉEY Céy Koronaa !"

ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

概要

このモデルは、ウォロフ語の固有表現抽出を目的として、xlm-roberta-baseをMasakhaNERデータセットでファインチューニングしたものです。

データについて

トレーニング、評価、テストデータセットは、MasakhaNERのGithub リポジトリから直接取得され、元のデータセットがすでに高品質であるため、最小限の前処理または前処理なしで使用されています。

このデータを使用する動機は、「10種類のアフリカ言語の固有表現抽出（NER）に関する最初の大規模で公開された高品質のデータセット」であることです（出典）。高品質なデータと、それを導入した論文によって築かれた基盤が、このデータセットを使用する理由となっています。評価には、トレーニングデータと同じ分布の専用のテスト分割が使用されているため、このモデルは他の分布に対して汎化できない可能性があり、その調査にはさらなるテストが必要です。データの正確な分布については、こちらで詳細に説明されています。

想定される使用方法

このモデルは、例えば解釈可能性や転移学習に関する自然言語処理研究に使用することを想定しています。汎化性やパフォーマンスが限られているため、本番環境での使用はサポートされていません。特に、このモデルは、人に影響を与える重要な下流タスクでの使用を想定して設計されていないため、次に説明するモデルの制限によって害が生じる可能性があります。

制限事項

このモデルは、1つの（比較的小さい）データセットでのみトレーニングされており、1つのタスク（NER）、1つのドメイン（ニュース記事）、および一定期間のデータを対象としています。結果は汎化しない可能性があり、他のタスクで使用すると、モデルのパフォーマンスが低下したり、不公平または偏った結果になる可能性があります。このプロジェクトの目的は転移学習の調査でしたが、モデルがトレーニングされていない言語でのパフォーマンスは低下します。

このモデルは、xlm-roberta-baseを起点としているため（特定の言語でのドメイン適応ファインチューニングを行っている可能性もあります）、このモデルの制限もここに適用される可能性があります。これには、トレーニングデータの大部分の観点に偏っていること、根拠がないこと、および他の言語での結果が劣ること（トレーニングデータの不均衡が原因である可能性があります）が含まれます。

Adelani et al. (2021) が示したように、モデルは一般的に、3語以上の固有表現やトレーニングデータに含まれていない固有表現に対して苦労します。これにより、例えば多くの単語からなる人名を見つけられないようにモデルが偏る可能性があり、結果の誤表現につながる可能性があります。同様に、珍しい名前や、トレーニングデータに含まれていない名前（例えば、異なる言語のため）も、予測される頻度が低くなります。

さらに、このモデルは実際に検証されていないため、何らかの検証なしに使用すると、他のより微妙な問題が顕在化する可能性があります。

プライバシーと倫理的な考慮事項

データは公開されているニュースソースのみから取得されており、利用可能なデータは公人や報道の許可を得た人物に関するもののみをカバーするはずです。詳細については、元のMasakhaNER論文を参照してください。

このモデルのファインチューニング中に、明示的な倫理的な考慮や調整は行われていません。

評価指標

言語適応モデルは、xlm-roberta-baseから始める場合よりも（ほとんどの場合）優れたパフォーマンスを達成します。主な評価指標は、すべてのNERカテゴリの集計F1スコアです。

これらの評価指標はMasakhaNERのテストセットに基づいているため、データ分布はトレーニングセットと類似しています。したがって、これらの結果は、これらのモデルがどれだけ汎化できるかを直接示すものではありません。異なるシードから始めた場合の転移結果には大きなばらつきが見られ（5つの異なるシードがテストされました）、転移のためのファインチューニングプロセスは不安定かもしれません。

使用される評価指標は、以前の研究と一致させ、研究を促進するために選択されました。他の目的には、他の評価指標がより適切な場合があります。

注意事項と推奨事項

一般的に、このモデルは「日付」カテゴリで他のカテゴリよりもパフォーマンスが低いため、日付が重要な要素である場合は、それを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションすることが考えられます。

モデル構造

ここでは、他のトレーニングしたモデルと比較した、この特定のモデルのパフォーマンスの詳細を示します。

すべての評価指標はテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのカテゴリで平均化され、後の4つはカテゴリごとのパフォーマンスを示しています。

このモデルは、トークンに対して次のラベルを予測できます（出典）:

略称	説明
O	固有表現の外
B-DATE	別のDATE固有表現の直後のDATE固有表現の開始
I-DATE	DATE固有表現
B-PER	別の人名の直後の人名の開始
I-PER	人名
B-ORG	別の組織の直後の組織の開始
I-ORG	組織
B-LOC	別の場所の直後の場所の開始
I-LOC	場所

モデル名	起点	評価 / ファインチューニング言語	F1	適合率	再現率	F1 (DATE)	F1 (LOC)	F1 (ORG)	F1 (PER)
xlm-roberta-base-finetuned-ner-wolof (このモデル)	base	ウォロフ語	66.12	69.46	63.09	30.00	84.00	54.00	59.00
xlm-roberta-base-finetuned-swahili-finetuned-ner-wolof	swa	ウォロフ語	69.01	73.25	65.23	27.00	85.00	52.00	67.00
xlm-roberta-base-finetuned-wolof-finetuned-ner-wolof	wol	ウォロフ語	69.02	67.60	70.51	30.00	84.00	44.00	71.00