xlm - roberta开源斯瓦希里语命名实体识别模型 - 免费用于斯语实体识别任务

首页

Xlm Roberta Base Finetuned Swahili Finetuned Ner Swahili

由 mbeukman 开发

该模型是在MasakhaNER数据集（斯瓦希里语部分）上微调的命名实体识别模型，适用于斯瓦希里语文本中的实体识别任务。

序列标注

Transformers

其他#斯瓦希里语NER #非洲语言处理 #新闻实体识别

下载量 14

发布时间 : 3/2/2022

模型简介

基于xlm-roberta-base架构，针对斯瓦希里语进行命名实体识别任务微调的Transformer模型，主要用于识别文本中的人名、地名、组织名和日期等实体。

模型特点

非洲语言支持

专门针对斯瓦希里语优化，填补了非洲语言NLP模型的空白

多实体类型识别

能够识别日期、人名、组织名和地名等多种实体类型

高效训练

在NVIDIA RTX3090显卡上仅需10-30分钟即可完成微调

模型能力

斯瓦希里语文本处理

命名实体识别

新闻领域实体提取

使用案例

NLP研究

可解释性研究

用于研究非洲语言模型的解释性和迁移学习特性

低资源语言NLP

作为低资源语言NLP研究的基准模型

信息提取

新闻分析

从斯瓦希里语新闻中提取关键实体信息

F1值达到90.36

🚀 XLM-RoBERTa基础模型微调斯瓦希里语命名实体识别模型

这是一个分词分类（具体为命名实体识别，NER）模型，它在MasakhaNER数据集（特别是斯瓦希里语部分）上对xlm-roberta-base-finetuned-swahili进行了微调。

更多信息以及其他类似模型可在主GitHub仓库中找到。

✨ 主要特性

该模型基于Transformer架构，并在MasakhaNER数据集上进行了微调。这是一个命名实体识别数据集，主要包含10种不同非洲语言的新闻文章。
模型经过50个训练周期的微调，最大序列长度为200，批量大小为32，学习率为5e - 5。此过程重复了5次（使用不同的随机种子），上传的这个模型在这5个种子的测试集上的综合F1得分表现最佳。

📦 安装指南

文档未提及具体安装步骤，可参考使用示例部分代码，确保环境中安装了transformers库。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-swahili-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."

ner_results = nlp(example)
print(ner_results)

📚 详细文档

关于模型

此模型基于Transformer架构，在MasakhaNER数据集上进行了微调。该数据集是一个命名实体识别数据集，主要包含10种不同非洲语言的新闻文章。模型由Michael Beukman在约翰内斯堡的威特沃特斯兰德大学做项目时进行微调，版本为1，发布于2021年11月20日。该模型遵循Apache许可证2.0版。

联系与更多信息

如需了解更多关于模型的信息，包括训练脚本、详细结果和其他资源，可访问主GitHub仓库。你可以通过在此仓库中提交问题与作者联系。

训练资源

为保证开放性并汇报使用的资源，这里列出训练过程所需的时间以及复现所需的最低资源。在命名实体识别数据集上微调每个模型需要10到30分钟，训练在NVIDIA RTX3090 GPU上进行。使用批量大小为32时，至少需要14GB的GPU内存；当批量大小为1时，大约6.5GB的显存也可以运行这些模型。

数据

训练、评估和测试数据集直接取自MasakhaNER的GitHub仓库，几乎没有进行预处理，因为原始数据集质量很高。使用该数据的动机在于它是“首个用于10种非洲语言命名实体识别（NER）的大型、公开可用、高质量数据集”(来源)。高质量的数据以及引入该数据集的论文所做的基础工作，也是选择该数据集的原因。评估时使用了专门的测试集，其数据分布与训练集相似，因此该模型可能无法很好地泛化到其他分布，需要进一步测试来研究。数据的确切分布在此处有详细介绍。

预期用途

该模型旨在用于自然语言处理研究，例如可解释性或迁移学习。不支持在生产环境中使用该模型，因为其泛化能力和性能有限。特别是，它不适合用于任何可能影响人们的重要下游任务，因为模型的局限性可能会造成危害，具体如下所述。

局限性

该模型仅在一个（相对较小）的数据集上进行了训练，涵盖一个任务（命名实体识别）、一个领域（新闻文章）以及特定的时间段。结果可能无法泛化，如果用于其他任务，模型可能表现不佳，或者存在不公平/有偏差的情况。尽管该项目的目的是研究迁移学习，但模型在未训练的语言上的性能确实会受到影响。
由于该模型以xlm - roberta - base为起点（可能在特定语言上进行了领域自适应微调），因此该基础模型的局限性也可能适用于此。这些局限性可能包括偏向于其大部分训练数据的主流观点、缺乏依据以及在其他语言上的表现不佳（可能是由于训练数据不平衡）。
正如Adelani等人（2021）所示，一般来说，模型在处理长度超过3个单词的实体以及训练数据中未包含的实体时会遇到困难。这可能会使模型偏向于无法识别例如包含多个单词的人名，从而可能导致结果出现偏差。同样，不常见的名字（可能由于不同语言）在训练数据中未出现，也会被预测得更少。
此外，该模型尚未在实践中得到验证，如果在未验证其是否能按预期工作的情况下使用，可能会出现其他更微妙的问题。

隐私与伦理考虑

数据仅来自公开的新闻来源，可用数据应涵盖公众人物以及同意被报道的人。更多详细信息请参阅原始的MasakhaNER论文。在微调此模型期间，未进行明确的伦理考虑或调整。

指标

基于语言自适应的模型在性能上（大部分情况下）优于以xlm - roberta - base为起点的模型。主要指标是所有命名实体识别类别的综合F1得分。这些指标是在MasakhaNER的测试集上得出的，因此数据分布与训练集相似，这些结果并不能直接表明这些模型的泛化能力。从不同种子开始进行迁移学习时，迁移结果存在较大差异（测试了5种不同的种子），这表明迁移的微调过程可能不稳定。所使用的指标是为了与先前的工作保持一致，并便于研究。其他指标可能更适合其他用途。

注意事项和建议

总体而言，该模型在“日期”类别上的表现比其他类别差。因此，如果日期是关键因素，则可能需要考虑并解决这个问题，例如收集和标注更多数据。

模型结构

以下是该特定模型与其他训练模型相比的一些性能细节。所有这些指标都是在测试集上计算的，并选择了能给出最佳综合F1得分的种子。前三个结果列是所有类别的平均值，后四个列按类别提供性能数据。

该模型可以为一个分词预测以下标签(来源):

缩写	描述
O	命名实体之外
B - DATE	紧接着另一个日期实体的日期实体的开始
I - DATE	日期实体
B - PER	紧接着另一个人名的人名的开始
I - PER	人名
B - ORG	紧接着另一个组织的组织的开始
I - ORG	组织
B - LOC	紧接着另一个地点的地点的开始
I - LOC	地点

模型名称	起点	评估/微调语言	F1	精确率	召回率	F1 (日期)	F1 (地点)	F1 (组织)	F1 (人名)
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili) (本模型)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	斯瓦希里语	90.36	88.59	92.20	86.00	93.00	79.00	96.00
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili)	[hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa)	斯瓦希里语	88.36	86.95	89.82	86.00	91.00	77.00	94.00
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili)	[ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo)	斯瓦希里语	87.75	86.55	88.97	85.00	92.00	77.00	91.00
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili)	[kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda)	斯瓦希里语	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili)	[lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda)	斯瓦希里语	88.93	87.64	90.25	83.00	92.00	79.00	95.00
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili)	[luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo)	斯瓦希里语	87.93	86.91	88.97	83.00	91.00	76.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	斯瓦希里语	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili)	[wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof)	斯瓦希里语	87.80	86.50	89.14	86.00	90.00	78.00	93.00
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili)	[yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba)	斯瓦希里语	87.73	86.67	88.80	85.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili)	[base](https://huggingface.co/xlm - roberta - base)	斯瓦希里语	88.71	86.84	90.67	83.00	91.00	79.00	95.00