🚀 XLM - RoBERTa命名實體識別模型卡片
XLM - RoBERTa是一個針對命名實體識別(NER)任務進行微調的模型,可用於標記文本中的實體,在自然語言處理領域具有重要價值。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
model = AutoModelForTokenClassification.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
✨ 主要特性
- 微調模型:基於XLM - RoBERTa進行微調,適用於命名實體識別任務。
- 多用途:可直接用於Token分類,也可結合tner庫進行下游任務。
📚 詳細文檔
模型詳情
模型描述
XLM - RoBERTa針對命名實體識別進行了微調。
屬性 |
詳情 |
開發者 |
Asahi Ushio |
共享方 |
Hugging Face |
模型類型 |
Token分類 |
支持語言 |
英語 |
許可證 |
需更多信息 |
相關模型 |
XLM - RoBERTa |
父模型 |
XLM - RoBERTa |
更多信息資源 |
GitHub倉庫 相關論文 Space |
使用方式
直接使用
Token分類
下游使用
該模型可與tner庫結合使用。
不適用場景
該模型不應用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人 (2021) 和 Bender等人 (2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。如需進一步建議,需更多信息。
訓練詳情
訓練數據
一個NER數據集包含每個分割(通常為train
/validation
/test
)的一系列標記和標籤,示例如下:
{
'train': {
'tokens': [
['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.'],
['From', 'Green', 'Newsfeed', ':', 'AHFA', 'extends', 'deadline', 'for', 'Sage', 'Award', 'to', 'Nov', '.', '5', 'http://tinyurl.com/24agj38'], ...
],
'tags': [
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ...
]
},
'validation': ...,
'test': ...,
}
還有一個將標籤映射到其索引的字典(label2id
),如下所示:
{"O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8}
訓練過程
預處理
需更多信息
速度、大小、時間
- Layer_norm_eps:1e - 05
- Num_attention_heads:12
- Num_hidden_layers:12
- Vocab_size:250002
評估
測試數據、因素和指標
測試數據
完整的數據集列表請參見數據集卡片
因素
需更多信息
指標
需更多信息
結果
需更多信息
模型檢查
需更多信息
環境影響
可以使用Lacoste等人 (2019) 中提出的機器學習影響計算器來估算碳排放。
- 硬件類型:需更多信息
- 使用時長:需更多信息
- 雲服務提供商:需更多信息
- 計算區域:需更多信息
- 碳排放:需更多信息
技術規格(可選)
模型架構和目標
需更多信息
計算基礎設施
硬件
需更多信息
軟件
需更多信息
引用
BibTeX:
@inproceedings{ushio-camacho-collados-2021-ner,
title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
author = "Ushio, Asahi and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
pages = "53--62",
}
模型卡片作者(可選)
Asahi Ushio與Ezi Ozoani和Hugging Face團隊合作完成。
模型卡片聯繫方式
需更多信息