🚀 xlm-roberta-base-finetuned-ner-wolof
このモデルは、トークン分類(具体的には固有表現抽出、NER)を行うモデルです。xlm-roberta-base を MasakhaNER データセットのウォロフ語部分でファインチューニングしたものです。
より詳細な情報や、他の類似モデルについては、メインのGithubリポジトリ を参照してください。
✨ 主な機能
- このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされています。MasakhaNERは、10種類のアフリカ言語のニュース記事を主に含む固有表現抽出データセットです。
- モデルは50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。このプロセスを5回(異なるランダムシードで)繰り返し、アップロードされたこのモデルは、5つのシードの中で最良の性能を示しました(テストセットでの集計F1スコア)。
📦 インストール
このセクションでは、インストールに関する具体的なコマンドが原ドキュメントに記載されていないため、省略します。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-wolof'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "SAFIYETU BÉEY Céy Koronaa !"
ner_results = nlp(example)
print(ner_results)
📚 ドキュメント
概要
このモデルは、ウォロフ語の固有表現抽出を目的として、xlm-roberta-baseをMasakhaNERデータセットでファインチューニングしたものです。
データについて
トレーニング、評価、テストデータセットは、MasakhaNERのGithub リポジトリから直接取得され、元のデータセットがすでに高品質であるため、最小限の前処理または前処理なしで使用されています。
このデータを使用する動機は、「10種類のアフリカ言語の固有表現抽出(NER)に関する最初の大規模で公開された高品質のデータセット」であることです(出典)。高品質なデータと、それを導入した論文によって築かれた基盤が、このデータセットを使用する理由となっています。評価には、トレーニングデータと同じ分布の専用のテスト分割が使用されているため、このモデルは他の分布に対して汎化できない可能性があり、その調査にはさらなるテストが必要です。データの正確な分布については、こちら で詳細に説明されています。
想定される使用方法
このモデルは、例えば解釈可能性や転移学習に関する自然言語処理研究に使用することを想定しています。汎化性やパフォーマンスが限られているため、本番環境での使用はサポートされていません。特に、このモデルは、人に影響を与える重要な下流タスクでの使用を想定して設計されていないため、次に説明するモデルの制限によって害が生じる可能性があります。
制限事項
このモデルは、1つの(比較的小さい)データセットでのみトレーニングされており、1つのタスク(NER)、1つのドメイン(ニュース記事)、および一定期間のデータを対象としています。結果は汎化しない可能性があり、他のタスクで使用すると、モデルのパフォーマンスが低下したり、不公平または偏った結果になる可能性があります。このプロジェクトの目的は転移学習の調査でしたが、モデルがトレーニングされていない言語でのパフォーマンスは低下します。
このモデルは、xlm-roberta-baseを起点としているため(特定の言語でのドメイン適応ファインチューニングを行っている可能性もあります)、このモデルの制限もここに適用される可能性があります。これには、トレーニングデータの大部分の観点に偏っていること、根拠がないこと、および他の言語での結果が劣ること(トレーニングデータの不均衡が原因である可能性があります)が含まれます。
Adelani et al. (2021) が示したように、モデルは一般的に、3語以上の固有表現やトレーニングデータに含まれていない固有表現に対して苦労します。これにより、例えば多くの単語からなる人名を見つけられないようにモデルが偏る可能性があり、結果の誤表現につながる可能性があります。同様に、珍しい名前や、トレーニングデータに含まれていない名前(例えば、異なる言語のため)も、予測される頻度が低くなります。
さらに、このモデルは実際に検証されていないため、何らかの検証なしに使用すると、他のより微妙な問題が顕在化する可能性があります。
プライバシーと倫理的な考慮事項
データは公開されているニュースソースのみから取得されており、利用可能なデータは公人や報道の許可を得た人物に関するもののみをカバーするはずです。詳細については、元のMasakhaNER論文を参照してください。
このモデルのファインチューニング中に、明示的な倫理的な考慮や調整は行われていません。
評価指標
言語適応モデルは、xlm-roberta-baseから始める場合よりも(ほとんどの場合)優れたパフォーマンスを達成します。主な評価指標は、すべてのNERカテゴリの集計F1スコアです。
これらの評価指標はMasakhaNERのテストセットに基づいているため、データ分布はトレーニングセットと類似しています。したがって、これらの結果は、これらのモデルがどれだけ汎化できるかを直接示すものではありません。異なるシードから始めた場合の転移結果には大きなばらつきが見られ(5つの異なるシードがテストされました)、転移のためのファインチューニングプロセスは不安定かもしれません。
使用される評価指標は、以前の研究と一致させ、研究を促進するために選択されました。他の目的には、他の評価指標がより適切な場合があります。
注意事項と推奨事項
一般的に、このモデルは「日付」カテゴリで他のカテゴリよりもパフォーマンスが低いため、日付が重要な要素である場合は、それを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションすることが考えられます。
モデル構造
ここでは、他のトレーニングしたモデルと比較した、この特定のモデルのパフォーマンスの詳細を示します。
すべての評価指標はテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのカテゴリで平均化され、後の4つはカテゴリごとのパフォーマンスを示しています。
このモデルは、トークンに対して次のラベルを予測できます(出典):
略称 |
説明 |
O |
固有表現の外 |
B-DATE |
別のDATE固有表現の直後のDATE固有表現の開始 |
I-DATE |
DATE固有表現 |
B-PER |
別の人名の直後の人名の開始 |
I-PER |
人名 |
B-ORG |
別の組織の直後の組織の開始 |
I-ORG |
組織 |
B-LOC |
別の場所の直後の場所の開始 |
I-LOC |
場所 |
📄 ライセンス
このモデルは Apache License, Version 2.0 の下でライセンスされています。