roberta-large-NERオープンソースの固有表現認識モデル - 無料で正確に英語の固有情報を認識

ホーム

Roberta Large NER

51la5によって開発

XLM - RoBERTa - largeモデルを英語のCoNLL - 2003データセットで微調整した命名エンティティ認識モデル

シーケンスラベリング複数言語対応#多言語NER #高精度のエンティティ認識 #英語専用の微調整

ダウンロード数 60.39k

リリース時間 : 10/17/2022

モデル概要

このモデルは多言語事前学習モデルXLM - RoBERTaの英語微調整版で、命名エンティティ認識タスクに特化しており、テキスト中の人名、地名、機関名などのエンティティを認識できます。

モデル特徴

多言語事前学習の基礎

100種類の言語をサポートするXLM - RoBERTa - largeモデルをベースにしており、強力な言語間表現能力を持っています。

専門分野の最適化

標準のNERデータセットCoNLL - 2003で微調整され、命名エンティティ認識タスクに最適化されています。

高い正確率

標準テストセットで優れた性能を発揮し、様々な命名エンティティを正確に認識できます。

モデル能力

命名エンティティ認識

テキストタグ分類

英語テキスト処理

使用事例

情報抽出

ニュースエンティティ抽出

ニュース記事から人名、地名、機関名などの重要な情報を抽出します。

テキスト中の様々なエンティティを正確に認識します。

文書自動処理

法律や医療文書中の命名エンティティを自動的に処理します。

文書処理の効率を向上させます。

知識グラフ構築

知識グラフエンティティ抽出

非構造化テキストからエンティティを抽出して知識グラフの構築に利用します。

知識グラフに構造化データを提供します。

🚀 xlm-roberta-large-finetuned-conll03-english

このモデルは、XLM-RoBERTa-largeを英語のCoNLL-2003データセットでファインチューニングした多言語言語モデルで、トークン分類タスクに使用できます。

🚀 クイックスタート

以下のコードを使用して、このモデルを始めることができます。このモデルは、NERのパイプライン内で直接使用することができます。

クリックして展開

>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Hello I'm Omar and I live in Zürich.")

[{'end': 14,
  'entity': 'I-PER',
  'index': 5,
  'score': 0.9999175,
  'start': 10,
  'word': '▁Omar'},
 {'end': 35,
  'entity': 'I-LOC',
  'index': 10,
  'score': 0.9999906,
  'start': 29,
  'word': '▁Zürich'}]

✨ 主な機能

直接的な使用

このモデルは言語モデルであり、トークン分類に使用できます。トークン分類は、テキスト内の一部のトークンにラベルを割り当てる自然言語理解タスクです。

下流の使用

潜在的な下流のユースケースには、固有表現認識（NER）や品詞タグ付け（PoS）が含まれます。トークン分類と他の潜在的な下流のユースケースについて詳しく知るには、Hugging Faceのトークン分類ドキュメントを参照してください。

範囲外の使用

このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。

📚 ドキュメント

モデルの詳細

モデルの説明

XLM-RoBERTaモデルは、Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer、Veselin StoyanovによるUnsupervised Cross-lingual Representation Learning at Scaleで提案されました。これは、2019年に公開されたFacebookのRoBERTaモデルに基づいています。これは大規模な多言語言語モデルで、2.5TBのフィルタリングされたCommonCrawlデータで学習されています。このモデルは、XLM-RoBERTa-largeを英語のconll2003データセットでファインチューニングしたものです。

属性	详情
開発者	関連論文を参照
モデルタイプ	多言語言語モデル
言語	XLM-RoBERTaは100種類の異なる言語で学習された多言語モデルです。完全なリストはGitHubリポジトリを参照してください。このモデルは英語のデータセットでファインチューニングされています。
ライセンス	詳細情報が必要
関連モデル	RoBERTa、XLM
親モデル	XLM-RoBERTa-large
詳細情報のリソース	GitHubリポジトリ、関連論文

バイアス、リスク、制限事項

⚠️ 重要提示

このモデルによって生成される言語は、一部の人にとって不快または不快感を与える可能性があり、歴史的および現在のステレオタイプを広める可能性があることに、読者は注意すべきです。

多くの研究が、言語モデルのバイアスと公平性の問題を探っています（例えば、Sheng et al. (2021)やBender et al. (2021)を参照）。このモデルに関連するタスクの文脈では、Mishra et al. (2020)が英語のNERシステムの社会的バイアスを調査し、既存のNERシステムには、異なる人口統計グループの固有表現を識別できないという系統的なバイアスがあることを発見しています（ただし、この論文はBERTを対象としていません）。例えば、Mishra et al. (2020)のサンプル文を使用すると：

>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Alya told Jasmine that Andrew could pay with cash..")
[{'end': 2,
  'entity': 'I-PER',
  'index': 1,
  'score': 0.9997861,
  'start': 0,
  'word': '▁Al'},
 {'end': 4,
  'entity': 'I-PER',
  'index': 2,
  'score': 0.9998591,
  'start': 2,
  'word': 'ya'},
 {'end': 16,
  'entity': 'I-PER',
  'index': 4,
  'score': 0.99995816,
  'start': 10,
  'word': '▁Jasmin'},
 {'end': 17,
  'entity': 'I-PER',
  'index': 5,
  'score': 0.9999584,
  'start': 16,
  'word': 'e'},
 {'end': 29,
  'entity': 'I-PER',
  'index': 7,
  'score': 0.99998057,
  'start': 23,
  'word': '▁Andrew'}]

推奨事項

ユーザー（直接的なユーザーと下流のユーザーの両方）は、このモデルのリスク、バイアス、制限事項を認識すべきです。

学習

学習データと学習手順の詳細については、以下のリソースを参照してください。

評価

評価の詳細については、関連論文を参照してください。

環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。

属性	详情
ハードウェアタイプ	500台の32GB Nvidia V100 GPU（関連論文より）
使用時間	詳細情報が必要
クラウドプロバイダー	詳細情報が必要
コンピュートリージョン	詳細情報が必要
排出された炭素量	詳細情報が必要

技術仕様

詳細については、関連論文を参照してください。

引用

BibTeX:

@article{conneau2019unsupervised,
  title={Unsupervised Cross-lingual Representation Learning at Scale},
  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
  journal={arXiv preprint arXiv:1911.02116},
  year={2019}
}

APA:

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.