🚀 XLM-RoBERTa for NER モデルカード
XLM-RoBERTaをNERに関してファインチューニングしたモデルです。このモデルはトークン分類に使用でき、特定のライブラリと組み合わせることも可能です。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
クリックして展開
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
model = AutoModelForTokenClassification.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
✨ 主な機能
- トークン分類を行うことができます。
- tnerライブラリ と組み合わせて使用することができます。
📦 インストール
ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの詳細
モデルの説明
XLM-RoBERTaをNERに関してファインチューニングしたモデルです。
- 開発者: Asahi Ushio
- 共有元 [任意]: Hugging Face
- モデルの種類: トークン分類
- 言語 (NLP): en
- ライセンス: 詳細情報が必要です
- 関連モデル: XLM-RoBERTa
- 詳細情報のリソース:
用途
直接の用途
トークン分類
下流の用途 [任意]
このモデルは tnerライブラリ と組み合わせて使用することができます。
範囲外の用途
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、制限
多くの研究が言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。このモデルによって生成された予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接的および下流的なユーザー)は、このモデルのリスク、バイアス、および制限について認識すべきです。さらなる推奨事項については詳細情報が必要です。
トレーニングの詳細
トレーニングデータ
NERデータセットは、各分割(通常は train
/validation
/test
)に対してトークンとタグのシーケンスを含んでいます。
{
'train': {
'tokens': [
['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.'],
['From', 'Green', 'Newsfeed', ':', 'AHFA', 'extends', 'deadline', 'for', 'Sage', 'Award', 'to', 'Nov', '.', '5', 'http://tinyurl.com/24agj38'], ...
],
'tags': [
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ...
]
},
'validation': ...,
'test': ...,
}
ラベルをそのインデックスにマップする辞書 (label2id
) は以下の通りです。
{"O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8}
トレーニング手順
前処理
詳細情報が必要です。
速度、サイズ、時間
- Layer_norm_eps: 1e-05
- Num_attention_heads: 12
- Num_hidden_layers: 12
- Vocab_size: 250002
評価
テストデータ、要因、メトリクス
テストデータ
完全なデータセットのリストについては データセットカード を参照してください。
要因
詳細情報が必要です。
メトリクス
詳細情報が必要です。
結果
詳細情報が必要です。
モデルの検査
詳細情報が必要です。
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定することができます。
- ハードウェアの種類: 詳細情報が必要です
- 使用時間: 詳細情報が必要です
- クラウドプロバイダー: 詳細情報が必要です
- コンピュートリージョン: 詳細情報が必要です
- 排出された炭素量: 詳細情報が必要です
技術仕様 [任意]
モデルのアーキテクチャと目的
詳細情報が必要です。
コンピュートインフラストラクチャ
ハードウェア
詳細情報が必要です。
ソフトウェア
詳細情報が必要です。
引用
BibTeX:
@inproceedings{ushio-camacho-collados-2021-ner,
title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
author = "Ushio, Asahi and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
pages = "53--62",
}
用語集 [任意]
詳細情報が必要です。
詳細情報 [任意]
詳細情報が必要です。
モデルカードの作成者 [任意]
Asahi UshioがEzi OzoaniおよびHugging Faceチームと協力して作成しました。
モデルカードの連絡先
詳細情報が必要です。