模型简介
模型特点
模型能力
使用案例
🚀 xlm-roberta-base-finetuned-ner-naija
这是一个令牌分类(具体为命名实体识别,NER)模型,它在 MasakhaNER 数据集(特别是尼日利亚皮钦语部分)上对 xlm-roberta-base 进行了微调。
更多信息以及其他类似模型可在 主 GitHub 仓库 中找到。
🚀 快速开始
要使用此模型(或其他模型),你可以按照以下步骤操作,只需更改模型名称(来源):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基于 Transformer 架构,在 MasakhaNER 数据集上进行微调。
- 可用于命名实体识别任务,特别是处理尼日利亚皮钦语新闻文章。
📦 安装指南
文档未提及具体安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."
ner_results = nlp(example)
print(ner_results)
高级用法
文档未提及高级用法相关代码示例,故跳过该部分。
📚 详细文档
关于
此模型基于 Transformer 架构,并在 MasakhaNER 数据集上进行了微调。这是一个命名实体识别数据集,主要包含 10 种不同非洲语言的新闻文章。
该模型进行了 50 个轮次的微调,最大序列长度为 200,批量大小为 32,学习率为 5e - 5。此过程重复了 5 次(使用不同的随机种子),上传的这个模型在这 5 个种子中(测试集上的综合 F1 分数)表现最佳。
该模型由我(Michael Beukman)在约翰内斯堡的威特沃特斯兰德大学做项目时进行微调。截至 2021 年 11 月 20 日,这是版本 1。此模型遵循 Apache 许可证,版本 2.0。
联系与更多信息
有关模型的更多信息,包括训练脚本、详细结果和更多资源,你可以访问 主 GitHub 仓库。你可以通过在此仓库中提交问题与我联系。
训练资源
为了保持开放性并报告所使用的资源,我们在此列出训练过程所需的时间,以及复现此过程所需的最小资源。在 NER 数据集上微调每个模型需要 10 到 30 分钟,并且是在 NVIDIA RTX3090 GPU 上进行的。要使用批量大小为 32,至少需要 14GB 的 GPU 内存,不过当使用批量大小为 1 时,大约 6.5GB 的显存也可以运行这些模型。
数据
训练、评估和测试数据集直接取自 MasakhaNER GitHub 仓库,几乎没有进行预处理,因为原始数据集已经具有很高的质量。
使用此数据的动机在于,它是“第一个大规模、公开可用、高质量的十种非洲语言命名实体识别(NER)数据集”(来源)。高质量的数据以及引入该数据集的论文所奠定的基础,是选择此数据集的更多原因。在评估时,使用了专门的测试分割,该分割与训练数据的分布相同,因此该模型可能无法推广到其他分布,需要进一步测试来研究这一点。数据的确切分布在 此处 有详细介绍。
预期用途
此模型旨在用于自然语言处理研究,例如可解释性或迁移学习。不支持在生产环境中使用此模型,因为其泛化能力和性能有限。特别是,它并非设计用于任何可能影响人们的重要下游任务,因为模型的局限性(如下所述)可能会造成危害。
局限性
此模型仅在一个(相对较小)的数据集上进行了训练,涵盖了一个任务(NER)、一个领域(新闻文章)和一段特定的时间范围。如果用于其他任务,结果可能无法泛化,模型可能表现不佳,或者表现出不公平/有偏差的情况。尽管此项目的目的是研究迁移学习,但模型在未训练过的语言上的性能确实会受到影响。
由于此模型以 xlm - roberta - base 为起点(可能在特定语言上进行了领域自适应微调),因此该基础模型的局限性也可能适用于此模型。这些局限性可能包括偏向于其大部分训练数据的主流观点、缺乏依据以及在其他语言上的表现不佳(可能是由于训练数据不平衡)。
正如 Adelani 等人(2021) 所示,一般来说,模型在处理长度超过 3 个单词的实体以及训练数据中未包含的实体时会遇到困难。这可能会使模型偏向于无法识别例如包含多个单词的人名,从而可能导致结果出现偏差。同样,不常见的名称(由于例如不同的语言)可能在训练数据中未出现,因此也会较少被预测到。
此外,此模型尚未在实践中得到验证,如果在未验证其是否能按预期工作的情况下使用,可能会出现其他更微妙的问题。
隐私与伦理考量
数据仅来自公开可用的新闻来源,可用的数据应仅涉及公众人物以及那些同意被报道的人。更多详细信息请参阅原始的 MasakhaNER 论文。
在微调此模型的过程中,未进行明确的伦理考量或调整。
指标
语言自适应模型在性能上(大部分)优于以 xlm - roberta - base 为起点的模型。我们的主要指标是所有 NER 类别的综合 F1 分数。
这些指标是在 MasakhaNER 测试集上得出的,因此数据分布与训练集相似,这些结果并不能直接表明这些模型的泛化能力如何。
我们发现,从不同种子开始进行迁移学习时,迁移结果存在较大差异(测试了 5 种不同的种子),这表明迁移学习的微调过程可能不稳定。
选择这些指标是为了与先前的工作保持一致,并便于研究。对于其他目的,可能需要使用其他更合适的指标。
注意事项和建议
一般来说,此模型在“日期”类别上的表现比其他类别差,因此如果日期是关键因素,则可能需要考虑并解决这个问题,例如收集和标注更多数据。
模型结构
以下是此特定模型与我们训练的其他模型相比的一些性能细节。
所有这些指标都是在测试集上计算得出的,并且选择了给出最佳整体 F1 分数的种子。前三个结果列是所有类别的平均值,后四个列按类别提供了性能数据。
此模型可以为一个令牌预测以下标签(来源):
缩写 | 描述 |
---|---|
O | 命名实体之外 |
B - DATE | 紧接另一个日期实体之后的日期实体的开始 |
I - DATE | 日期实体 |
B - PER | 紧接另一个人名之后的人名的开始 |
I - PER | 人名 |
B - ORG | 紧接另一个组织之后的组织的开始 |
I - ORG | 组织 |
B - LOC | 紧接另一个地点之后的地点的开始 |
I - LOC | 地点 |
模型名称 | 起点 | 评估/微调语言 | F1 | 精确率 | 召回率 | F1(日期) | F1(地点) | F1(组织) | F1(人名) |
---|---|---|---|---|---|---|---|---|---|
[xlm - roberta - base - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - naija)(此模型) | [base](https://huggingface.co/xlm - roberta - base) | pcm | 88.89 | 88.13 | 89.66 | 92.00 | 87.00 | 82.00 | 94.00 |
[xlm - roberta - base - finetuned - naija - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - naija) | [pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija) | pcm | 88.06 | 87.04 | 89.12 | 90.00 | 88.00 | 81.00 | 92.00 |
[xlm - roberta - base - finetuned - swahili - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - naija) | [swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili) | pcm | 89.12 | 87.84 | 90.42 | 90.00 | 89.00 | 82.00 | 94.00 |
🔧 技术细节
文档中关于技术细节的描述已融入详细文档部分,故不再单独列出。
📄 许可证
此模型遵循 Apache 许可证,版本 2.0。








