アラビア語 - NER - ACEオープンソースの命名エンティティ認識モデル - アラビア語と英語のバイリンガル、複数のエンティティタイプの認識をサポート

ホーム

Arabic Ner Ace

ychenNLPによって開発

GigaBERTv4に基づくアラビア語と英語の固有表現認識モデルで、複数の実体タイプの認識をサポートします。

シーケンスラベリング

Transformers

複数言語対応オープンソースライセンス:MIT #アラビア語NER #多言語固有表現認識 #ACE2005高精度

ダウンロード数 105

リリース時間 : 6/29/2022

モデル概要

このモデルはGigaBERTv4アーキテクチャに基づく系列ラベリングモデルで、アラビア語と英語の固有表現認識タスクに特化しており、人物、交通手段、地政学的実体などの複数の実体タイプの認識をサポートします。

モデル特徴

多言語対応

アラビア語と英語の固有表現認識を同時にサポートします。

高精度認識

ACE2005データセットで、アラビア語で89.4、英語で88.8のF1値を達成しました。

広範な実体カバレッジ

人物、組織、場所など7種類の実体タイプの認識をサポートします。

モデル能力

アラビア語固有表現認識

英語固有表現認識

多タイプ実体分類

使用事例

ニュース分析

政治ニュースの実体抽出

政治ニュースから重要な人物、組織、地理位置を識別します。

例では、「トルコ法務大臣」や「アンカラ」などの実体が正常に識別されました。

ソーシャルメディア監視

ソーシャルメディアの実体監視

ソーシャルメディアの内容に含まれる重要な実体を分析します。

抗議活動に関連する場所や組織を識別できます。

🚀 アラビア語固有表現抽出モデル

このモデルは、GigaBERTv4に基づく固有表現抽出（NER）のBIOタグ付けモデルです。
トレーニングデータはACE2005を使用し、英語とアラビア語のデータが含まれています。
NERタグには、PER（人物）、VEH（乗り物）、GPE（地理的政治的エリア）、WEA（武器）、ORG（組織）、LOC（場所）、FAC（施設）が含まれます。
GitHubリポジトリ

🚀 クイックスタート

ハイパーパラメータ

learning_rate=2e-5
num_train_epochs=10
weight_decay=0.01

ACE2005評価結果 (F1)

言語	アラビア語	英語
	89.4	88.8

使い方

>>> from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer

>>> ner_model = AutoModelForTokenClassification.from_pretrained("ychenNLP/arabic-ner-ace")
>>> ner_tokenizer = AutoTokenizer.from_pretrained("ychenNLP/arabic-ner-ace")
>>> ner_pip = pipeline("ner", model=ner_model, tokenizer=ner_tokenizer, grouped_entities=True)

>>> output = ner_pip('Protests break out across the US after Supreme Court overturns.')
>>> print(output)
[{'entity_group': 'GPE', 'score': 0.9979881, 'word': 'us', 'start': 30, 'end': 32}, {'entity_group': 'ORG', 'score': 0.99898684, 'word': 'supreme court', 'start': 39, 'end': 52}]

>>> output = ner_pip('قال وزير العدل التركي بكير بوزداغ إن أنقرة تريد 12 مشتبهاً بهم من فنلندا و 21 من السويد')
>>> print(output)
[{'entity_group': 'PER', 'score': 0.9996214, 'word': 'وزير', 'start': 4, 'end': 8}, {'entity_group': 'ORG', 'score': 0.9952383, 'word': 'العدل', 'start': 9, 'end': 14}, {'entity_group': 'GPE', 'score': 0.9996675, 'word': 'التركي', 'start': 15, 'end': 21}, {'entity_group': 'PER', 'score': 0.9978992, 'word': 'بكير بوزداغ', 'start': 22, 'end': 33}, {'entity_group': 'GPE', 'score': 0.9997154, 'word': 'انقرة', 'start': 37, 'end': 42}, {'entity_group': 'PER', 'score': 0.9946885, 'word': 'مشتبها بهم', 'start': 51, 'end': 62}, {'entity_group': 'GPE', 'score': 0.99967396, 'word': 'فنلندا', 'start': 66, 'end': 72}, {'entity_group': 'PER', 'score': 0.99694425, 'word': '21', 'start': 75, 'end': 77}, {'entity_group': 'GPE', 'score': 0.99963355, 'word': 'السويد', 'start': 81, 'end': 87}]

📚 詳細ドキュメント

BibTeXエントリと引用情報

@inproceedings{lan2020gigabert,
  author     = {Lan, Wuwei and Chen, Yang and Xu, Wei and Ritter, Alan},
    title      = {Giga{BERT}: Zero-shot Transfer Learning from {E}nglish to {A}rabic},
    booktitle  = {Proceedings of The 2020 Conference on Empirical Methods on Natural Language Processing (EMNLP)},
    year       = {2020}
  }