🚀 xlm-roberta-base-finetuned-luganda-finetuned-ner-swahili
このモデルはトークン分類(特に固有表現抽出、NER)モデルで、xlm-roberta-base-finetuned-luganda を MasakhaNER データセット、具体的にはスワヒリ語部分でファインチューニングしたものです。
詳細や他の類似モデルについては、メインのGitHubリポジトリ を参照してください。
✨ 主な機能
このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされました。このデータセットは固有表現抽出用のデータセットで、10種類のアフリカ言語のニュース記事が主に含まれています。
モデルは50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。このプロセスは5回(異なるランダムシードで)繰り返され、アップロードされたこのモデルはその5つのシードの中で最も良い性能(テストセットでの集計F1スコア)を示しました。
このモデルは、ヨハネスブルのウィットウォータースランド大学でプロジェクトを行っている私、Michael Beukmanによってファインチューニングされました。これは2021年11月20日時点のバージョン1です。
このモデルは Apache License, Version 2.0 の下でライセンスされています。
連絡先と詳細情報
モデルに関する詳細情報(トレーニングスクリプト、詳細な結果、その他のリソースを含む)については、メインのGitHubリポジトリ を訪問してください。質問や問題がある場合は、このリポジトリにissueを登録して連絡することができます。
トレーニングリソース
透明性のために、トレーニングに使用されたリソースについて報告します。NERデータセットで各モデルをファインチューニングするのに10〜30分かかり、NVIDIA RTX3090 GPUで実行されました。バッチサイズ32を使用するには、少なくとも14GBのGPUメモリが必要でしたが、バッチサイズ1を使用すると、約6.5GBのVRAMでもこれらのモデルを実行することが可能でした。
📦 データ
トレーニング、評価、テストデータセットは、MasakhaNERの GitHub リポジトリから直接取得され、元のデータセットはすでに高品質であるため、最小限の前処理または前処理なしで使用されました。
このデータを使用する動機は、これが「10種類のアフリカ言語の固有表現抽出(NER)用の最初の大規模で公開された高品質データセット」であることです(出典)。高品質なデータと、それを導入した論文によって築かれた基礎が、このデータセットを使用するさらなる理由です。評価には、トレーニングデータと同じ分布の専用のテスト分割が使用されたため、このモデルは他の分布に対して汎化できない可能性があり、これを調査するためにさらなるテストが必要です。データの正確な分布については、こちら で詳細に説明されています。
📚 想定使用方法
このモデルは、例えば解釈可能性や転移学習などの自然言語処理研究に使用することを想定しています。汎化性やパフォーマンスが限られているため、本番環境での使用はサポートされていません。特に、このモデルは人に影響を与える重要な下流タスクでの使用を想定して設計されておらず、次に説明するモデルの制限により危害が発生する可能性があります。
🔧 制限事項
このモデルは、1つの(比較的小さい)データセットでトレーニングされ、1つのタスク(NER)、1つのドメイン(ニュース記事)、および一定期間のデータを対象としています。結果は汎化できない可能性があり、他のタスクで使用するとモデルの性能が悪くなったり、不公平または偏った結果になる可能性があります。このプロジェクトの目的は転移学習の調査でしたが、モデルがトレーニングされていない言語での性能は低下します。
このモデルはxlm-roberta-baseを起点として使用している(特定の言語でのドメイン適応ファインチューニングを行っている可能性もある)ため、このモデルにも同様の制限が適用されます。これには、トレーニングデータの大部分のヘゲモニー的な見解に偏っていること、根拠がないこと、他の言語での結果が劣ること(トレーニングデータの不均衡が原因である可能性がある)などが含まれます。
Adelani et al. (2021) の研究によると、一般的にモデルは3語以上のエンティティやトレーニングデータに含まれていないエンティティに対して苦労します。これにより、モデルは例えば多くの単語からなる人名を見つけられない傾向があり、結果の誤表現につながる可能性があります。同様に、トレーニングデータに含まれていない(例えば異なる言語のため)珍しい名前も予測される頻度が低くなります。
さらに、このモデルは実際に検証されていないため、何らかの検証なしに使用すると、他のより微妙な問題が顕在化する可能性があります。
プライバシーと倫理的考慮事項
データは公開されているニュースソースのみから取得されており、利用可能なデータは公衆人物や報道に同意した人物に関するもののみをカバーするはずです。詳細については、元のMasakhaNER論文を参照してください。
このモデルのファインチューニング中に、明示的な倫理的考慮事項や調整は行われていません。
📊 評価指標
言語適応モデルは、xlm-roberta-baseを起点とする場合よりも(ほとんどの場合)優れた性能を達成します。主な評価指標は、すべてのNERカテゴリの集計F1スコアです。
これらの評価指標はMasakhaNERのテストセットに基づいており、データ分布はトレーニングセットと類似しているため、これらの結果はこれらのモデルがどれだけ汎化できるかを直接示すものではありません。
異なるシードから始めた場合の転移結果には大きなばらつきがあり(5つの異なるシードがテストされました)、転移学習のためのファインチューニングプロセスは不安定かもしれません。
使用される評価指標は、以前の研究と一致するように選択され、研究を促進するために選ばれました。他の目的には、他の評価指標がより適切な場合があります。
⚠️ 注意事項と推奨事項
一般的に、このモデルは他のカテゴリと比較して「日付」カテゴリでの性能が低いため、日付が重要な要素である場合は、これを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションすることが考えられます。
📈 モデル構造
ここでは、他のトレーニングしたモデルと比較した、この特定のモデルの性能詳細を示します。
これらの評価指標はすべてテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのカテゴリにわたって平均化され、後の4つはカテゴリ別の性能を提供します。
このモデルは、トークンに対して以下のラベルを予測できます(出典):
略称 |
説明 |
O |
固有表現の外 |
B-DATE |
別のDATEエンティティの直後のDATEエンティティの開始 |
I-DATE |
DATEエンティティ |
B-PER |
別の人物名の直後の人物名の開始 |
I-PER |
人物名 |
B-ORG |
別の組織の直後の組織の開始 |
I-ORG |
組織 |
B-LOC |
別の場所の直後の場所の開始 |
I-LOC |
場所 |
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-luganda-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."
ner_results = nlp(example)
print(ner_results)
📄 ライセンス
このモデルは Apache License, Version 2.0 の下でライセンスされています。