🚀 XLM - RoBERTa命名实体识别模型卡片
XLM - RoBERTa是一个针对命名实体识别(NER)任务进行微调的模型,可用于标记文本中的实体,在自然语言处理领域具有重要价值。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
model = AutoModelForTokenClassification.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
✨ 主要特性
- 微调模型:基于XLM - RoBERTa进行微调,适用于命名实体识别任务。
- 多用途:可直接用于Token分类,也可结合tner库进行下游任务。
📚 详细文档
模型详情
模型描述
XLM - RoBERTa针对命名实体识别进行了微调。
属性 |
详情 |
开发者 |
Asahi Ushio |
共享方 |
Hugging Face |
模型类型 |
Token分类 |
支持语言 |
英语 |
许可证 |
需更多信息 |
相关模型 |
XLM - RoBERTa |
父模型 |
XLM - RoBERTa |
更多信息资源 |
GitHub仓库 相关论文 Space |
使用方式
直接使用
Token分类
下游使用
该模型可与tner库结合使用。
不适用场景
该模型不应用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人 (2021) 和 Bender等人 (2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。如需进一步建议,需更多信息。
训练详情
训练数据
一个NER数据集包含每个分割(通常为train
/validation
/test
)的一系列标记和标签,示例如下:
{
'train': {
'tokens': [
['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.'],
['From', 'Green', 'Newsfeed', ':', 'AHFA', 'extends', 'deadline', 'for', 'Sage', 'Award', 'to', 'Nov', '.', '5', 'http://tinyurl.com/24agj38'], ...
],
'tags': [
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ...
]
},
'validation': ...,
'test': ...,
}
还有一个将标签映射到其索引的字典(label2id
),如下所示:
{"O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8}
训练过程
预处理
需更多信息
速度、大小、时间
- Layer_norm_eps:1e - 05
- Num_attention_heads:12
- Num_hidden_layers:12
- Vocab_size:250002
评估
测试数据、因素和指标
测试数据
完整的数据集列表请参见数据集卡片
因素
需更多信息
指标
需更多信息
结果
需更多信息
模型检查
需更多信息
环境影响
可以使用Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。
- 硬件类型:需更多信息
- 使用时长:需更多信息
- 云服务提供商:需更多信息
- 计算区域:需更多信息
- 碳排放:需更多信息
技术规格(可选)
模型架构和目标
需更多信息
计算基础设施
硬件
需更多信息
软件
需更多信息
引用
BibTeX:
@inproceedings{ushio-camacho-collados-2021-ner,
title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
author = "Ushio, Asahi and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
pages = "53--62",
}
模型卡片作者(可选)
Asahi Ushio与Ezi Ozoani和Hugging Face团队合作完成。
模型卡片联系方式
需更多信息