🚀 xlm-roberta-large-finetuned-conll03-german
このモデルは、XLM - RoBERTa-largeをドイツ語のconll2003データセットでファインチューニングした多言語言語モデルです。トークン分類タスクに使用でき、名前付きエンティティ認識や品詞タグ付けなどの下流タスクに役立ちます。
🚀 クイックスタート
以下のコードを使用して、このモデルを名前付きエンティティ認識(NER)のパイプラインで直接使用できます。
基本的な使用法
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Bayern München ist wieder alleiniger Top-Favorit auf den Gewinn der deutschen Fußball-Meisterschaft.")
[{'end': 6,
'entity': 'I-ORG',
'index': 1,
'score': 0.99999166,
'start': 0,
'word': '▁Bayern'},
{'end': 14,
'entity': 'I-ORG',
'index': 2,
'score': 0.999987,
'start': 7,
'word': '▁München'},
{'end': 77,
'entity': 'I-MISC',
'index': 16,
'score': 0.9999728,
'start': 68,
'word': '▁deutschen'}]
✨ 主な機能
- 多言語対応:XLM - RoBERTaは100種類の言語で学習された多言語モデルです。
- トークン分類:テキスト内のトークンにラベルを割り当てる自然言語理解タスクに使用できます。
- 下流タスク対応:名前付きエンティティ認識(NER)や品詞タグ付け(PoS)などの下流タスクに利用可能です。
📚 ドキュメント
モデルの詳細
XLM - RoBERTaモデルは、Alexis ConneauらによってUnsupervised Cross - lingual Representation Learning at Scaleで提案されました。これは2019年にFacebookがリリースしたRoBERTaモデルをベースにしており、2.5TBのフィルタリングされたCommonCrawlデータで学習された大規模な多言語言語モデルです。このモデルは、XLM - RoBERTa-largeをドイツ語のconll2003データセットでファインチューニングしたものです。
使用方法
直接使用
このモデルは言語モデルであり、トークン分類、つまりテキスト内の一部のトークンにラベルを割り当てる自然言語理解タスクに使用できます。
下流使用
潜在的な下流のユースケースには、名前付きエンティティ認識(NER)や品詞タグ付け(PoS)が含まれます。トークン分類と他の潜在的な下流ユースケースの詳細については、Hugging Faceのトークン分類ドキュメントを参照してください。
範囲外の使用
このモデルは、人々に敵意を抱かせたり疎外感を与える環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、および制限
⚠️ 重要提示
このモデルによって生成される言語は、一部の人にとって不快または攻撃的なものであり、過去や現在のステレオタイプを広める可能性があることに読者は注意すべきです。
多くの研究が、言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。
推奨事項
ユーザー(直接ユーザーと下流ユーザーの両方)は、このモデルのリスク、バイアス、および制限について認識すべきです。
トレーニング
トレーニングデータとトレーニング手順の詳細については、以下のリソースを参照してください。
評価
評価の詳細については、関連論文を参照してください。
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
属性 |
详情 |
ハードウェアタイプ |
500台の32GB Nvidia V100 GPU(関連論文より) |
使用時間 |
詳細情報が必要 |
クラウドプロバイダー |
詳細情報が必要 |
コンピュートリージョン |
詳細情報が必要 |
排出された炭素量 |
詳細情報が必要 |
技術仕様
詳細については、関連論文を参照してください。
引用
BibTeX
@article{conneau2019unsupervised,
title={Unsupervised Cross-lingual Representation Learning at Scale},
author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1911.02116},
year={2019}
}
APA
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.
モデルカード作成者
このモデルカードはHugging Faceのチームによって作成されました。