xlm-roberta-base-finetuned-ner-naija开源模型 - 精准识别尼日利亚皮钦语命名实体

首页

Xlm Roberta Base Finetuned Ner Naija

由 mbeukman 开发

基于xlm-roberta-base微调的命名实体识别模型，专门针对尼日利亚皮钦语优化

序列标注

Transformers

其他#非洲语言NER #皮钦语专用 #新闻实体识别

下载量 17

发布时间 : 3/2/2022

模型简介

该模型在MasakhaNER数据集的尼日利亚皮钦语部分进行微调，用于识别文本中的命名实体（如人名、地点、组织等）。

模型特点

非洲语言优化

专门针对尼日利亚皮钦语进行微调，填补了非洲语言NER模型的空白

多类别识别

可识别日期、人名、组织机构和地理位置等多种实体类型

高效训练

在单个NVIDIA RTX3090显卡上仅需10-30分钟完成微调

模型能力

文本实体识别

多类别实体分类

非洲语言处理

使用案例

NLP研究

可解释性研究

用于研究跨语言模型在非洲语言上的表现

迁移学习实验

作为基础模型进行其他非洲语言的NER任务迁移

🚀 xlm-roberta-base-finetuned-ner-naija

这是一个令牌分类（具体为命名实体识别，NER）模型，它在 MasakhaNER 数据集（特别是尼日利亚皮钦语部分）上对 xlm-roberta-base 进行了微调。

更多信息以及其他类似模型可在主 GitHub 仓库中找到。

🚀 快速开始

要使用此模型（或其他模型），你可以按照以下步骤操作，只需更改模型名称（来源）：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基于 Transformer 架构，在 MasakhaNER 数据集上进行微调。
可用于命名实体识别任务，特别是处理尼日利亚皮钦语新闻文章。

📦 安装指南

文档未提及具体安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

高级用法

文档未提及高级用法相关代码示例，故跳过该部分。

📚 详细文档

关于

此模型基于 Transformer 架构，并在 MasakhaNER 数据集上进行了微调。这是一个命名实体识别数据集，主要包含 10 种不同非洲语言的新闻文章。

该模型进行了 50 个轮次的微调，最大序列长度为 200，批量大小为 32，学习率为 5e - 5。此过程重复了 5 次（使用不同的随机种子），上传的这个模型在这 5 个种子中（测试集上的综合 F1 分数）表现最佳。

该模型由我（Michael Beukman）在约翰内斯堡的威特沃特斯兰德大学做项目时进行微调。截至 2021 年 11 月 20 日，这是版本 1。此模型遵循 Apache 许可证，版本 2.0。

联系与更多信息

有关模型的更多信息，包括训练脚本、详细结果和更多资源，你可以访问主 GitHub 仓库。你可以通过在此仓库中提交问题与我联系。

训练资源

为了保持开放性并报告所使用的资源，我们在此列出训练过程所需的时间，以及复现此过程所需的最小资源。在 NER 数据集上微调每个模型需要 10 到 30 分钟，并且是在 NVIDIA RTX3090 GPU 上进行的。要使用批量大小为 32，至少需要 14GB 的 GPU 内存，不过当使用批量大小为 1 时，大约 6.5GB 的显存也可以运行这些模型。

数据

训练、评估和测试数据集直接取自 MasakhaNER GitHub 仓库，几乎没有进行预处理，因为原始数据集已经具有很高的质量。

使用此数据的动机在于，它是“第一个大规模、公开可用、高质量的十种非洲语言命名实体识别（NER）数据集”（来源）。高质量的数据以及引入该数据集的论文所奠定的基础，是选择此数据集的更多原因。在评估时，使用了专门的测试分割，该分割与训练数据的分布相同，因此该模型可能无法推广到其他分布，需要进一步测试来研究这一点。数据的确切分布在此处有详细介绍。

预期用途

此模型旨在用于自然语言处理研究，例如可解释性或迁移学习。不支持在生产环境中使用此模型，因为其泛化能力和性能有限。特别是，它并非设计用于任何可能影响人们的重要下游任务，因为模型的局限性（如下所述）可能会造成危害。

局限性

此模型仅在一个（相对较小）的数据集上进行了训练，涵盖了一个任务（NER）、一个领域（新闻文章）和一段特定的时间范围。如果用于其他任务，结果可能无法泛化，模型可能表现不佳，或者表现出不公平/有偏差的情况。尽管此项目的目的是研究迁移学习，但模型在未训练过的语言上的性能确实会受到影响。

由于此模型以 xlm - roberta - base 为起点（可能在特定语言上进行了领域自适应微调），因此该基础模型的局限性也可能适用于此模型。这些局限性可能包括偏向于其大部分训练数据的主流观点、缺乏依据以及在其他语言上的表现不佳（可能是由于训练数据不平衡）。

正如 Adelani 等人（2021）所示，一般来说，模型在处理长度超过 3 个单词的实体以及训练数据中未包含的实体时会遇到困难。这可能会使模型偏向于无法识别例如包含多个单词的人名，从而可能导致结果出现偏差。同样，不常见的名称（由于例如不同的语言）可能在训练数据中未出现，因此也会较少被预测到。

此外，此模型尚未在实践中得到验证，如果在未验证其是否能按预期工作的情况下使用，可能会出现其他更微妙的问题。

隐私与伦理考量

数据仅来自公开可用的新闻来源，可用的数据应仅涉及公众人物以及那些同意被报道的人。更多详细信息请参阅原始的 MasakhaNER 论文。

在微调此模型的过程中，未进行明确的伦理考量或调整。

指标

语言自适应模型在性能上（大部分）优于以 xlm - roberta - base 为起点的模型。我们的主要指标是所有 NER 类别的综合 F1 分数。

这些指标是在 MasakhaNER 测试集上得出的，因此数据分布与训练集相似，这些结果并不能直接表明这些模型的泛化能力如何。

我们发现，从不同种子开始进行迁移学习时，迁移结果存在较大差异（测试了 5 种不同的种子），这表明迁移学习的微调过程可能不稳定。

选择这些指标是为了与先前的工作保持一致，并便于研究。对于其他目的，可能需要使用其他更合适的指标。

注意事项和建议

一般来说，此模型在“日期”类别上的表现比其他类别差，因此如果日期是关键因素，则可能需要考虑并解决这个问题，例如收集和标注更多数据。

模型结构

以下是此特定模型与我们训练的其他模型相比的一些性能细节。

所有这些指标都是在测试集上计算得出的，并且选择了给出最佳整体 F1 分数的种子。前三个结果列是所有类别的平均值，后四个列按类别提供了性能数据。

此模型可以为一个令牌预测以下标签（来源）：

缩写	描述
O	命名实体之外
B - DATE	紧接另一个日期实体之后的日期实体的开始
I - DATE	日期实体
B - PER	紧接另一个人名之后的人名的开始
I - PER	人名
B - ORG	紧接另一个组织之后的组织的开始
I - ORG	组织
B - LOC	紧接另一个地点之后的地点的开始
I - LOC	地点

模型名称	起点	评估/微调语言	F1	精确率	召回率	F1（日期）	F1（地点）	F1（组织）	F1（人名）
[xlm - roberta - base - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - naija)（此模型）	[base](https://huggingface.co/xlm - roberta - base)	pcm	88.89	88.13	89.66	92.00	87.00	82.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - naija)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	pcm	88.06	87.04	89.12	90.00	88.00	81.00	92.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - naija)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	pcm	89.12	87.84	90.42	90.00	89.00	82.00	94.00