🚀 xlm-roberta-base-finetuned-amharic-finetuned-ner-swahili
このモデルは、トークン分類(具体的には固有表現認識、NER)を行うモデルです。xlm-roberta-base-finetuned-amharic を MasakhaNER データセット、特にスワヒリ語部分でファインチューニングしたものです。
より詳細な情報や、他の類似モデルについては、メインのGitHubリポジトリ を参照してください。
🚀 クイックスタート
このモデルを使用するには、以下のようにします(モデル名を変更するだけで他のモデルも使用可能です)。ソース
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-amharic-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."
ner_results = nlp(example)
print(ner_results)
✨ 主な機能
- このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされています。
- 10種類のアフリカ言語のニュース記事を主に含む固有表現認識データセットを使用しています。
- 50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。
- このプロセスは5回繰り返され(異なるランダムシードを使用)、アップロードされたこのモデルは、その5つのシードの中で最も良い性能を示しました(テストセットでの集計F1スコア)。
📦 インストール
READMEにインストール手順に関する具体的な内容は記載されていません。
📚 ドキュメント
概要
このモデルは、Transformerベースで、MasakhaNERデータセットでファインチューニングされた固有表現認識モデルです。データセットは、10種類のアフリカ言語のニュース記事を主に含んでいます。
トレーニングに関する情報
- モデルは50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。
- このプロセスは5回繰り返され(異なるランダムシードを使用)、アップロードされたこのモデルは、その5つのシードの中で最も良い性能を示しました(テストセットでの集計F1スコア)。
- トレーニングにはNVIDIA RTX3090 GPUを使用し、各モデルのファインチューニングには10から30分かかりました。バッチサイズ32で使用するには、少なくとも14GBのGPUメモリが必要ですが、バッチサイズ1では約6.5GBのVRAMでも実行可能です。
データに関する情報
- トレーニング、評価、テストデータセットは、MasakhaNERのGithubリポジトリから直接取得され、元のデータセットはすでに高品質なので、最小限の前処理または前処理なしで使用されています。
- このデータを使用する動機は、これが「10種類のアフリカ言語の固有表現認識(NER)に関する最初の大規模で公開された高品質なデータセット」であることです。ソース
- 評価には、トレーニングデータと同じ分布の専用のテストセットが使用されているため、このモデルが他の分布に対してどの程度汎化できるかは不明であり、さらなるテストが必要です。データの正確な分布については、こちらで詳細に説明されています。
想定される使用方法
このモデルは、例えば解釈可能性や転移学習などの自然言語処理研究に使用することを想定しています。汎化性やパフォーマンスが限られているため、本番環境での使用はサポートされていません。特に、人に影響を与える重要な下流タスクでの使用は想定されておらず、次に説明するモデルの制限により危害が発生する可能性があります。
制限事項
- このモデルは、1つの(比較的小さい)データセットでトレーニングされており、1つのタスク(NER)、1つのドメイン(ニュース記事)、一定期間のデータを対象としています。結果は汎化しない可能性があり、他のタスクで使用すると、パフォーマンスが低下したり、不公平または偏った結果になる可能性があります。
- このプロジェクトの目的は転移学習の調査でしたが、トレーニングに使用されていない言語でのパフォーマンスは低下します。
- このモデルはxlm-roberta-baseを起点としているため(特定の言語でのドメイン適応ファインチューニングを行っている可能性もあります)、このモデルにも同様の制限が適用されます。これには、トレーニングデータの大部分の支配的な視点に偏っていること、根拠がないこと、他の言語での結果が劣ること(トレーニングデータの不均衡が原因かもしれません)などが含まれます。
- Adelani et al. (2021) の研究によると、一般的に、モデルは3語以上の固有表現やトレーニングデータに含まれていない固有表現の処理に苦労します。これにより、例えば多くの単語からなる人名を見つけられない可能性があり、結果に誤表現が生じる可能性があります。同様に、珍しい名前やトレーニングデータに含まれていない名前(異なる言語のためなど)も予測されにくくなります。
- このモデルは実際の使用で検証されていないため、何らかの検証なしに使用すると、他のより微妙な問題が顕在化する可能性があります。
プライバシーと倫理的な考慮事項
データは公開されているニュースソースのみから収集されており、利用可能なデータは公人や報道の許可を得た人物に関するもののみをカバーするはずです。詳細については、元のMasakhaNER論文を参照してください。
このモデルのファインチューニング中に、明示的な倫理的な考慮事項や調整は行われていません。
メトリクス
言語適応モデルは、xlm-roberta-baseから始めるよりも(ほとんどの場合)優れた性能を達成します。主なメトリクスは、すべてのNERカテゴリの集計F1スコアです。
これらのメトリクスはMasakhaNERのテストセットに基づいているため、データ分布はトレーニングセットと類似しています。したがって、これらの結果は、これらのモデルがどの程度汎化できるかを直接示すものではありません。
異なるシードから始めた場合の転移学習の結果には大きなばらつきがあり(5つの異なるシードがテストされました)、転移学習のためのファインチューニングプロセスは不安定かもしれません。
使用されるメトリクスは、以前の研究と一致するように選択され、研究を促進するために選ばれました。他の目的には、他のメトリクスがより適切かもしれません。
注意事項と推奨事項
一般的に、このモデルは「日付」カテゴリで他のカテゴリよりも性能が低いため、日付が重要な要素である場合は、それを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションすることが考えられます。
モデル構造
この特定のモデルの、他のトレーニングしたモデルとの比較による性能詳細を以下に示します。
すべてのメトリクスはテストセットで計算され、全体的なF1スコアが最も良いシードが選択されました。最初の3つの結果列はすべてのカテゴリで平均化され、後の4つはカテゴリ別の性能を示しています。
このモデルは、トークンに対して以下のラベルを予測できます。ソース
略称 |
説明 |
O |
固有表現の外 |
B-DATE |
別のDATEエンティティの直後のDATEエンティティの開始 |
I-DATE |
DATEエンティティ |
B-PER |
別の人名の直後の人名の開始 |
I-PER |
人名 |
B-ORG |
別の組織の直後の組織の開始 |
I-ORG |
組織 |
B-LOC |
別の場所の直後の場所の開始 |
I-LOC |
場所 |
🔧 技術詳細
- モデルはTransformerベースで、MasakhaNERデータセットを使用してファインチューニングされています。
- 50エポックでファインチューニングされ、最大シーケンス長は200、バッチサイズは32、学習率は5e-5です。
- トレーニングにはNVIDIA RTX3090 GPUを使用し、各モデルのファインチューニングには10から30分かかりました。バッチサイズ32で使用するには、少なくとも14GBのGPUメモリが必要ですが、バッチサイズ1では約6.5GBのVRAMでも実行可能です。
📄 ライセンス
このモデルは、Apache License, Version 2.0の下でライセンスされています。