xlm - roberta - base - finetuned - wolof - finetuned - ner - swahiliオープンソースモデル - スワヒリ語の命名エンティティを高精度に識別

ホーム

Xlm Roberta Base Finetuned Wolof Finetuned Ner Swahili

mbeukmanによって開発

これは、xlm - roberta - base - finetuned - wolofの事前学習モデルを基に、マサカナ固有表現抽出データセットのスワヒリ語部分で微調整した固有表現抽出モデルです。

シーケンスラベリング

Transformers

その他#アフリカ言語の固有表現抽出 #多言語間転移学習 #ニュースの固有表現抽出

ダウンロード数 49

リリース時間 : 3/2/2022

モデル概要

このモデルは主にスワヒリ語テキストの固有表現抽出タスクに使用され、日付、人名、組織名、地名などの固有表現を識別することができます。

モデル特徴

多言語間転移学習

ウォロフ語で微調整されたXLM - RoBERTaモデルをスワヒリ語でさらに微調整することで、多言語間転移学習能力を示しています。

アフリカ言語対応

アフリカ言語（スワヒリ語）に特化して最適化された固有表現抽出モデルです。

効率的な学習

各微調整には10～30分しかかからず、NVIDIA RTX3090グラフィックカードで完了します。

モデル能力

日付の固有表現を識別する

人名の固有表現を識別する

組織名の固有表現を識別する

地名の固有表現を識別する

使用事例

ニュース分析

ニュースの固有表現抽出

スワヒリ語のニュースから重要な固有表現情報を抽出する

ニュース内の人物、場所、組織、時間情報を識別できます。

情報抽出

文書の構造化

非構造化のスワヒリ語文書を構造化データに変換する

文書内の固有表現を抽出してさらなる分析に利用します。

🚀 xlm-roberta-base-finetuned-wolof-finetuned-ner-swahili

このモデルはトークン分類（具体的には固有表現抽出、NER）モデルで、xlm-roberta-base-finetuned-wolof を MasakhaNER データセット、具体的にはスワヒリ語部分でファインチューニングしたものです。

詳細や他の類似モデルについては、メインのGitHubリポジトリを参照してください。

✨ 主な機能

このモデルはTransformerベースで、MasakhaNERデータセットでファインチューニングされています。これは固有表現抽出データセットで、主に10種類のアフリカ言語のニュース記事が含まれています。

モデルは最大シーケンス長200、バッチサイズ32、学習率5e - 5で50エポックファインチューニングされました。このプロセスは5回（異なる乱数シードで）繰り返され、アップロードされたこのモデルはその5つのシードの中で最良の性能（テストセットでの集約F1スコア）を示しました。

このモデルは、ヨハネスブルのウィットウォーターズランド大学でプロジェクトを行っている私、Michael Beukmanによってファインチューニングされました。これは2021年11月20日時点のバージョン1です。このモデルは Apache License, Version 2.0 の下でライセンスされています。

お問い合わせと詳細情報

モデルに関する詳細情報（トレーニングスクリプト、詳細な結果、その他のリソースを含む）については、メインのGitHubリポジトリを訪問してください。質問や問題がある場合は、このリポジトリにissueを立てて連絡することができます。

トレーニングリソース

透明性のために、トレーニングに使用したリソースを以下に示します。NERデータセットでの各モデルのファインチューニングには10から30分かかり、NVIDIA RTX3090 GPUで実行されました。バッチサイズ32を使用するには、少なくとも14GBのGPUメモリが必要でしたが、バッチサイズ1を使用すると、約6.5GBのVRAMでもこれらのモデルを実行することが可能でした。

📦 データ

トレーニング、評価、テストデータセットは、MasakhaNERの GitHub リポジトリから直接取得され、元のデータセットがすでに高品質であるため、最小限の前処理または前処理なしで使用されました。

このデータを使用する動機は、これが「10種類のアフリカ言語の固有表現抽出（NER）に関する最初の大規模で公開された高品質のデータセット」であることです（出典）。高品質なデータと、それを紹介する論文によって築かれた基礎が、このデータセットを使用する理由となっています。評価には、トレーニングデータと同じ分布の専用のテスト分割が使用されたため、このモデルは他の分布に対して汎化できない可能性があり、これを調査するためにさらなるテストが必要です。データの正確な分布については、こちらで詳細に説明されています。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-wolof-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."

ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

想定される使用方法

このモデルは、例えば解釈可能性や転移学習などの自然言語処理研究に使用することを想定しています。汎化性や性能が限られているため、本番環境での使用はサポートされていません。特に、このモデルは人に影響を与える重要な下流タスクでの使用を想定して設計されておらず、次に説明するモデルの制限により害が生じる可能性があります。

制限事項

このモデルは、1つの（比較的小さい）データセットで、1つのタスク（NER）、1つのドメイン（ニュース記事）、一定期間のデータでのみトレーニングされています。結果は汎化しない可能性があり、他のタスクで使用すると、モデルの性能が悪くなったり、不公平または偏った結果になる可能性があります。このプロジェクトの目的は転移学習を調査することでしたが、モデルがトレーニングされていない言語での性能は低下します。

このモデルはxlm - roberta - baseを起点としている（特定の言語でのドメイン適応ファインチューニングを行っている可能性もあり）ため、このモデルにも同様の制限が適用されます。これには、トレーニングデータの大部分のヘゲモニー的な視点に偏っていること、根拠がないこと、他の言語での結果が劣ること（トレーニングデータの不均衡が原因である可能性があります）などが含まれます。

Adelani et al. (2021) によると、一般的にモデルは3語以上の固有表現やトレーニングデータに含まれていない固有表現の処理に苦労します。これにより、例えば多くの単語からなる人名を見つけられない可能性があり、結果に誤った表現が生じる可能性があります。同様に、トレーニングデータに含まれていない（例えば異なる言語のため）珍しい名前も予測される頻度が低くなります。

さらに、このモデルは実際に検証されていないため、何をすることが想定されているかを検証せずに使用すると、他のより微妙な問題が顕在化する可能性があります。

プライバシーと倫理的考慮事項

データは公開されているニュースソースのみから取得されており、利用可能なデータは公人や報道に同意した人に関するもののみをカバーするはずです。詳細については、元のMasakhaNER論文を参照してください。

このモデルのファインチューニング中に、明示的な倫理的考慮や調整は行われていません。

評価指標

言語適応モデルは、xlm - roberta - baseを起点とする場合に比べて（ほとんどの場合）優れた性能を達成しています。主な評価指標は、すべてのNERカテゴリの集約F1スコアです。

これらの評価指標はMasakhaNERのテストセットに基づいているため、データ分布はトレーニングセットと類似しています。したがって、これらの結果はこれらのモデルがどれだけ汎化できるかを直接示すものではありません。異なるシードから始めた場合の転移学習の結果には大きなばらつきがあり、転移学習のファインチューニングプロセスは不安定である可能性があります。

使用される評価指標は、以前の研究と一致させ、研究を容易にするために選択されました。他の目的には、他の評価指標がより適切な場合があります。

注意事項と推奨事項

一般的に、このモデルは「日付」カテゴリで他のカテゴリよりも性能が低くなります。したがって、日付が重要な要素である場合は、これを考慮して対処する必要があります。例えば、より多くのデータを収集してアノテーションを付けることが考えられます。

モデル構造

ここでは、他のトレーニングしたモデルと比較した、この特定のモデルの性能詳細を示します。

すべての評価指標はテストセットで計算され、最良の全体的なF1スコアを与えるシードが選択されました。最初の3つの結果列はすべてのカテゴリにわたって平均化されており、後の4つはカテゴリごとの性能を示しています。

このモデルは、トークンに対して以下のラベルを予測できます（出典）。

略称	説明
O	固有表現の外
B - DATE	別のDATEエンティティの直後のDATEエンティティの開始
I - DATE	DATEエンティティ
B - PER	別の人名の直後の人名の開始
I - PER	人名
B - ORG	別の組織の直後の組織の開始
I - ORG	組織
B - LOC	別の場所の直後の場所の開始
I - LOC	場所

モデル名	起点	評価/ファインチューニング言語	F1	精度	再現率	F1 (DATE)	F1 (LOC)	F1 (ORG)	F1 (PER)
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili) (このモデル)	[wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof)	swa	87.80	86.50	89.14	86.00	90.00	78.00	93.00
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili)	[hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa)	swa	88.36	86.95	89.82	86.00	91.00	77.00	94.00
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili)	[ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo)	swa	87.75	86.55	88.97	85.00	92.00	77.00	91.00
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili)	[kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda)	swa	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili)	[lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda)	swa	88.93	87.64	90.25	83.00	92.00	79.00	95.00
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili)	[luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo)	swa	87.93	86.91	88.97	83.00	91.00	76.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	swa	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	swa	90.36	88.59	92.20	86.00	93.00	79.00	96.00
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili)	[yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba)	swa	87.73	86.67	88.80	85.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili)	[base](https://huggingface.co/xlm - roberta - base)	swa	88.71	86.84	90.67	83.00	91.00	79.00	95.00