xlm-roberta-large-finetuned-conll02-spanish开源模型 - 实现西班牙语命名实体精准识别

首页

Xlm Roberta Large Finetuned Conll02 Spanish

由 FacebookAI 开发

基于XLM-RoBERTa-large模型在西班牙语CoNLL-2002数据集上微调的命名实体识别模型

序列标注支持多种语言#西班牙语NER #多语言预训练 #实体识别

下载量 244

发布时间 : 3/2/2022

模型简介

该模型是XLM-RoBERTa-large的微调版本，专门用于西班牙语文本中的命名实体识别任务。

模型特点

多语言预训练

基于XLM-RoBERTa-large模型，支持100种语言

西班牙语优化

专门针对西班牙语文本进行微调

高效NER识别

在CoNLL-2002西班牙语数据集上表现出色

模型能力

命名实体识别

西班牙语文本处理

词元分类

使用案例

自然语言处理

西班牙语文本实体提取

从西班牙语文本中识别出人名、地名、组织名等实体

在CoNLL-2002数据集上表现良好

文档信息提取

处理西班牙语文档，提取关键实体信息

🚀 xlm-roberta-large-finetuned-conll02-spanish

这是一个基于XLM - RoBERTa的多语言模型，在西班牙语的CoNLL - 2002数据集上进行了微调，可用于分词分类等自然语言理解任务。

🚀 快速开始

使用以下代码开始使用该模型。你可以直接在命名实体识别（NER）的管道中使用这个模型。

点击展开

>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll02-spanish")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll02-spanish")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Efectuaba un vuelo entre bombay y nueva york.")

[{'end': 30,
  'entity': 'B-LOC',
  'index': 7,
  'score': 0.95703226,
  'start': 25,
  'word': '▁bomba'},
 {'end': 39,
  'entity': 'B-LOC',
  'index': 10,
  'score': 0.9771854,
  'start': 34,
  'word': '▁nueva'},
 {'end': 43,
  'entity': 'I-LOC',
  'index': 11,
  'score': 0.9914097,
  'start': 40,
  'word': '▁yor'}]

✨ 主要特性

模型详情

模型描述

XLM - RoBERTa模型由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov在论文Unsupervised Cross - lingual Representation Learning at Scale中提出。它基于Facebook在2019年发布的RoBERTa模型，是一个大型多语言语言模型，在2.5TB经过过滤的CommonCrawl数据上进行训练。此模型是[XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large)在西班牙语的CoNLL - 2002数据集上进行微调后的版本。

属性	详情
开发者	详见相关论文
模型类型	多语言语言模型
语言（NLP）	XLM - RoBERTa是一个在100种不同语言上训练的多语言模型，完整列表见GitHub仓库；该模型在西班牙语数据集上进行了微调。
许可证	需要更多信息
相关模型	[RoBERTa](https://huggingface.co/roberta - base)，XLM 父模型：[XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large)
更多信息资源	GitHub仓库相关论文 CoNLL - 2002数据卡

用途

直接使用

该模型是一个语言模型，可用于分词分类，这是一种自然语言理解任务，即给文本中的某些分词分配标签。

下游使用

潜在的下游用例包括命名实体识别（NER）和词性标注（PoS）。要了解更多关于分词分类和其他潜在下游用例的信息，请参阅Hugging Face的[分词分类文档](https://huggingface.co/tasks/token - classification)。

超出范围的使用

该模型不应用于故意为人们创造敌对或排斥性的环境。

偏差、风险和局限性

⚠️ 重要提示

读者应该意识到，该模型生成的语言可能会让一些人感到不安或冒犯，并且可能会传播历史和当前的刻板印象。

大量研究已经探讨了语言模型的偏差和公平性问题（例如，见[Sheng等人（2021）](https://aclanthology.org/2021.acl - long.330.pdf)和Bender等人（2021））。

💡 使用建议

直接用户和下游用户都应该了解该模型的风险、偏差和局限性。

训练

有关训练数据和训练过程的详细信息，请参阅以下资源：

[XLM - RoBERTa - large模型卡](https://huggingface.co/xlm - roberta - large)
CoNLL - 2002数据卡
相关论文

评估

有关评估的详细信息，请参阅相关论文。

环境影响

可以使用Lacoste等人（2019）提出的机器学习影响计算器来估算碳排放量。

属性	详情
硬件类型	500个32GB的Nvidia V100 GPU（来自相关论文）
使用时长	需要更多信息
云服务提供商	需要更多信息
计算区域	需要更多信息
碳排放	需要更多信息

技术规格

更多详细信息请参阅相关论文。

引用

BibTeX

@article{conneau2019unsupervised,
  title={Unsupervised Cross-lingual Representation Learning at Scale},
  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
  journal={arXiv preprint arXiv:1911.02116},
  year={2019}
}

APA

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116.