🚀 xlm-roberta-large-masakhaner
xlm-roberta-large-masakhaner 是首个基于微调的 XLM-RoBERTa 大模型的、用于 10 种非洲语言(阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)的命名实体识别(Named Entity Recognition,NER)模型。它在 NER 任务中达到了最先进的性能。该模型经过训练,能够识别四种类型的实体:日期和时间(DATE)、地点(LOC)、组织(ORG)和人物(PER)。
🚀 快速开始
你可以使用 Transformers 的 pipeline
来使用这个模型进行命名实体识别。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 多语言支持:支持阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语等 10 种非洲语言。
- 先进性能:在 NER 任务中达到了最先进的性能。
- 实体类型识别:能够识别日期和时间、地点、组织和人物四种类型的实体。
📦 安装指南
文档未提及安装步骤,如需使用可参考 Transformers 库的安装方法。
📚 详细文档
模型描述
xlm-roberta-large-masakhaner 是基于微调的 XLM-RoBERTa 大模型的命名实体识别模型。具体来说,该模型是在从 Masakhane MasakhaNER 数据集获取的非洲语言数据集聚合上进行微调的 xlm-roberta-large 模型。
预期用途和局限性
如何使用
你可以使用 Transformers 的 pipeline
来使用这个模型进行命名实体识别,示例代码见“快速开始”部分。
局限性和偏差
该模型受其特定时间段内实体标注新闻文章的训练数据集限制,可能无法很好地泛化到不同领域的所有用例。
训练数据
该模型在 10 种非洲 NER 数据集(阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)的 Masakhane MasakhaNER 数据集上进行了微调。
训练数据集区分实体的开始和延续,以便如果有连续的相同类型实体,模型可以输出第二个实体的开始位置。在数据集中,每个标记将被分类为以下类别之一:
缩写 |
详情 |
O |
命名实体之外 |
B-DATE |
另一个 DATE 实体之后的 DATE 实体的开始 |
I-DATE |
DATE 实体 |
B-PER |
另一个人物姓名之后的人物姓名的开始 |
I-PER |
人物姓名 |
B-ORG |
另一个组织之后的组织的开始 |
I-ORG |
组织 |
B-LOC |
另一个地点之后的地点的开始 |
I-LOC |
地点 |
训练过程
该模型在单个 NVIDIA V100 GPU 上进行训练,使用了 原始 MasakhaNER 论文 中推荐的超参数,该论文在 MasakhaNER 语料库上对模型进行了训练和评估。
测试集评估结果(F 分数)
语言 |
F1 分数 |
amh |
75.76 |
hau |
91.75 |
ibo |
86.26 |
kin |
76.38 |
lug |
84.64 |
luo |
80.65 |
pcm |
89.55 |
swa |
89.48 |
wol |
70.70 |
yor |
82.05 |
BibTeX 引用和引用信息
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}