🚀 xlm-roberta-large-finetuned-conll02-dutch
该项目是一个基于XLM - RoBERTa的多语言模型,在荷兰语的CoNLL - 2002数据集上进行了微调,可用于令牌分类等自然语言理解任务。
🚀 快速开始
使用以下代码开始使用该模型,你可以在命名实体识别(NER)的管道中直接使用此模型。
点击展开
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Mijn naam is Emma en ik woon in Londen.")
[{'end': 17,
'entity': 'B-PER',
'index': 4,
'score': 0.9999807,
'start': 13,
'word': '▁Emma'},
{'end': 36,
'entity': 'B-LOC',
'index': 9,
'score': 0.9999871,
'start': 32,
'word': '▁Lond'}]
✨ 主要特性
模型详情
模型描述
XLM - RoBERTa模型由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov在论文 Unsupervised Cross - lingual Representation Learning at Scale 中提出。它基于Facebook在2019年发布的RoBERTa模型,是一个大型多语言模型,在2.5TB经过过滤的CommonCrawl数据上进行训练。此模型是 [XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large) 在荷兰语的 CoNLL - 2002 数据集上微调后的版本。
属性 |
详情 |
开发者 |
见 相关论文 |
模型类型 |
多语言语言模型 |
语言(NLP) |
XLM - RoBERTa是在100种不同语言上训练的多语言模型,完整列表见 GitHub仓库;该模型在荷兰语数据集上进行了微调 |
许可证 |
需要更多信息 |
相关模型 |
[RoBERTa](https://huggingface.co/roberta - base),XLM 父模型:[XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large) |
更多信息资源 |
GitHub仓库 相关论文 CoNLL - 2002数据卡片 |
用途
直接使用
该模型是一个语言模型,可用于令牌分类,这是一种自然语言理解任务,为文本中的某些令牌分配标签。
下游使用
潜在的下游用例包括命名实体识别(NER)和词性(PoS)标注。要了解更多关于令牌分类和其他潜在下游用例的信息,请参阅Hugging Face的 [令牌分类文档](https://huggingface.co/tasks/token - classification)。
超出范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
⚠️ 重要提示
读者应该意识到,该模型生成的语言可能会让一些人感到不安或冒犯,并且可能会传播历史和当前的刻板印象。
大量研究已经探讨了语言模型的偏差和公平性问题(例如,见 [Sheng等人(2021)](https://aclanthology.org/2021.acl - long.330.pdf) 和 Bender等人(2021))。
💡 使用建议
直接用户和下游用户都应该了解该模型的风险、偏差和局限性。
训练
有关训练数据和训练过程的详细信息,请参阅以下资源:
评估
有关评估的详细信息,请参阅 相关论文。
环境影响
可以使用 Lacoste等人(2019) 提出的 机器学习影响计算器 来估算碳排放。
属性 |
详情 |
硬件类型 |
500个32GB的Nvidia V100 GPU(来自 相关论文) |
使用时长 |
需要更多信息 |
云服务提供商 |
需要更多信息 |
计算区域 |
需要更多信息 |
碳排放 |
需要更多信息 |
技术规格
更多详细信息请参阅 相关论文。
引用
BibTeX:
@article{conneau2019unsupervised,
title={Unsupervised Cross-lingual Representation Learning at Scale},
author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1911.02116},
year={2019}
}
APA:
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116.
模型卡片作者
此模型卡片由Hugging Face团队撰写。