モデル概要
モデル特徴
モデル能力
使用事例
🚀 xlm-roberta-base-finetuned-swahili-finetuned-ner-swahili
これは、トークン分類(具体的には固有表現抽出、NER)のモデルです。xlm-roberta-base-finetuned-swahili を MasakhaNER データセット、具体的にはスワヒリ語部分でファインチューニングしたものです。
より詳細な情報や、他の類似モデルについては、メインのGitHubリポジトリ で確認できます。
✨ 主な機能
このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされています。このデータセットは固有表現抽出用のデータセットで、主に10種類のアフリカ言語のニュース記事が含まれています。
モデルは最大シーケンス長200、バッチサイズ32、学習率5e - 5で50エポックファインチューニングされました。このプロセスは5回(異なるランダムシードで)繰り返され、アップロードされたこのモデルはその5つのシードの中で最も良い性能(テストセットでの集計F1スコア)を示しました。
このモデルは、ヨハネスブルのウィットウォーターズランド大学でプロジェクトを行っている私、Michael Beukmanによってファインチューニングされました。これは2021年11月20日時点のバージョン1です。 このモデルは Apache License, Version 2.0 の下でライセンスされています。
連絡先と詳細情報
モデルに関する詳細情報(トレーニングスクリプト、詳細な結果、その他のリソースを含む)については、メインのGitHubリポジトリ を訪問してください。このリポジトリに問題を登録することで、私に連絡することができます。
トレーニングリソース
透明性と使用したリソースの報告のために、ここではトレーニングプロセスにかかった時間と、この結果を再現するための最小限のリソースを示します。NERデータセットで各モデルをファインチューニングするのに10から30分かかり、NVIDIA RTX3090 GPUで実行されました。バッチサイズ32を使用するには、少なくとも14GBのGPUメモリが必要でしたが、バッチサイズ1を使用すると、約6.5GBのVRAMでもこれらのモデルを実行することが可能でした。
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
# このモデル(または他のモデル)を使用するには、以下のようにして、モデル名を変更するだけです([ソース](https://huggingface.co/dslim/bert-base-NER))
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-swahili-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."
ner_results = nlp(example)
print(ner_results)
📚 ドキュメント
データ
トレーニング、評価、テストデータセットは、MasakhaNERの GitHub リポジトリから直接取得され、元のデータセットは既に高品質であるため、最小限の前処理または前処理なしで使用されました。
このデータを使用する動機は、これが「10種類のアフリカ言語の固有表現抽出(NER)に関する最初の大規模で公開された高品質のデータセット」であることです(ソース)。高品質なデータと、それを導入した論文によって築かれた基盤が、このデータセットを使用するさらなる理由です。評価には、トレーニングデータと同じ分布の専用のテスト分割が使用されているため、このモデルは他の分布に対して汎化できない可能性があり、これを調査するためにさらなるテストが必要になります。データの正確な分布については、こちら で詳細に説明されています。
想定される用途
このモデルは、例えば解釈可能性や転移学習などの自然言語処理研究に使用することを想定しています。汎化性やパフォーマンスが限られているため、本番環境での使用はサポートされていません。特に、人に影響を与える重要な下流タスクでの使用は想定されておらず、次に説明するモデルの制限によって危害が発生する可能性があります。
制限事項
このモデルは、1つの(比較的小さい)データセットでトレーニングされており、1つのタスク(NER)、1つのドメイン(ニュース記事)、一定期間のデータを対象としています。結果は汎化できない可能性があり、他のタスクで使用すると、モデルの性能が悪くなったり、不公平または偏った結果になる可能性があります。このプロジェクトの目的は転移学習を調査することでしたが、モデルがトレーニングされていない言語での性能は低下します。
このモデルは、xlm - roberta - baseを起点として使用しているため(特定の言語でのドメイン適応ファインチューニングを行っている可能性もあります)、このモデルにも同様の制限が適用されます。これには、トレーニングデータの大部分の観点に偏っていること、根拠がないこと、他の言語での結果が劣ること(トレーニングデータの不均衡が原因である可能性があります)などが含まれます。
Adelani et al. (2021) が示したように、一般的にモデルは3語以上の固有表現やトレーニングデータに含まれていない固有表現に苦労します。これにより、例えば多くの単語からなる人名を見つけられない傾向があり、結果に誤った表現が生じる可能性があります。同様に、珍しい名前やトレーニングデータに含まれていない名前(例えば、異なる言語のため)も予測される頻度が低くなります。
さらに、このモデルは実際に検証されていないため、何をすることを意図しているかを検証せずに使用すると、他のより微妙な問題が顕在化する可能性があります。
プライバシーと倫理的な考慮事項
データは公開されているニュースソースのみから取得されており、利用可能なデータは公人や報道に同意した人を対象としています。詳細については、元のMasakhaNER論文を参照してください。
このモデルのファインチューニング中に、明示的な倫理的な考慮事項や調整は行われていません。
評価指標
言語適応モデルは、xlm - roberta - baseを起点とする場合よりも(ほとんどの場合)優れた性能を達成しています。主な評価指標は、すべてのNERカテゴリの集計F1スコアです。
これらの評価指標はMasakhaNERのテストセットに基づいているため、データ分布はトレーニングセットと類似しています。したがって、これらの結果はこれらのモデルがどれだけ汎化できるかを直接示すものではありません。
異なるシードから始めた場合の転移学習の結果に大きなばらつきが見られることから(5つの異なるシードがテストされました)、転移学習のためのファインチューニングプロセスは不安定である可能性が示唆されます。
使用される評価指標は、以前の研究と一致するように選択され、研究を促進するために選ばれました。他の目的には、他の評価指標がより適切な場合があります。
注意事項と推奨事項
一般的に、このモデルは他のカテゴリと比較して「日付」カテゴリでの性能が低いため、日付が重要な要素である場合は、それを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションを付けることが考えられます。
モデル構造
ここでは、他のトレーニングしたモデルと比較した、この特定のモデルの性能詳細を示します。
すべての評価指標はテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのカテゴリで平均化され、後の4つはカテゴリごとの性能を示しています。
このモデルは、トークンに対して以下のラベルを予測することができます(ソース):
略称 | 説明 |
---|---|
O | 固有表現の外 |
B - DATE | 別のDATEエンティティの直後のDATEエンティティの開始 |
I - DATE | DATEエンティティ |
B - PER | 別の人名の直後の人名の開始 |
I - PER | 人名 |
B - ORG | 別の組織の直後の組織の開始 |
I - ORG | 組織 |
B - LOC | 別の場所の直後の場所の開始 |
I - LOC | 場所 |
モデル名 | 起点 | 評価 / ファインチューニング言語 | F1 | 精度 | 再現率 | F1 (DATE) | F1 (LOC) | F1 (ORG) | F1 (PER) |
---|---|---|---|---|---|---|---|---|---|
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili) (このモデル) | [swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili) | swa | 90.36 | 88.59 | 92.20 | 86.00 | 93.00 | 79.00 | 96.00 |
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili) | [hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa) | swa | 88.36 | 86.95 | 89.82 | 86.00 | 91.00 | 77.00 | 94.00 |
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili) | [ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo) | swa | 87.75 | 86.55 | 88.97 | 85.00 | 92.00 | 77.00 | 91.00 |
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili) | [kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda) | swa | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili) | [lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda) | swa | 88.93 | 87.64 | 90.25 | 83.00 | 92.00 | 79.00 | 95.00 |
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili) | [luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo) | swa | 87.93 | 86.91 | 88.97 | 83.00 | 91.00 | 76.00 | 94.00 |
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili) | [pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija) | swa | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili) | [wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof) | swa | 87.80 | 86.50 | 89.14 | 86.00 | 90.00 | 78.00 | 93.00 |
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili) | [yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba) | swa | 87.73 | 86.67 | 88.80 | 85.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili) | [base](https://huggingface.co/xlm - roberta - base) | swa | 88.71 | 86.84 | 90.67 | 83.00 | 91.00 | 79.00 | 95.00 |
📄 ライセンス
このモデルは Apache License, Version 2.0 の下でライセンスされています。








