模型简介
模型特点
模型能力
使用案例
🚀 XLM-RoBERTa基础模型微调斯瓦希里语命名实体识别模型
这是一个分词分类(具体为命名实体识别,NER)模型,它在MasakhaNER数据集(特别是斯瓦希里语部分)上对xlm-roberta-base-finetuned-swahili进行了微调。
更多信息以及其他类似模型可在主GitHub仓库中找到。
✨ 主要特性
- 该模型基于Transformer架构,并在MasakhaNER数据集上进行了微调。这是一个命名实体识别数据集,主要包含10种不同非洲语言的新闻文章。
- 模型经过50个训练周期的微调,最大序列长度为200,批量大小为32,学习率为5e - 5。此过程重复了5次(使用不同的随机种子),上传的这个模型在这5个种子的测试集上的综合F1得分表现最佳。
📦 安装指南
文档未提及具体安装步骤,可参考使用示例部分代码,确保环境中安装了transformers
库。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-swahili-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."
ner_results = nlp(example)
print(ner_results)
📚 详细文档
关于模型
此模型基于Transformer架构,在MasakhaNER数据集上进行了微调。该数据集是一个命名实体识别数据集,主要包含10种不同非洲语言的新闻文章。模型由Michael Beukman在约翰内斯堡的威特沃特斯兰德大学做项目时进行微调,版本为1,发布于2021年11月20日。该模型遵循Apache许可证2.0版。
联系与更多信息
如需了解更多关于模型的信息,包括训练脚本、详细结果和其他资源,可访问主GitHub仓库。你可以通过在此仓库中提交问题与作者联系。
训练资源
为保证开放性并汇报使用的资源,这里列出训练过程所需的时间以及复现所需的最低资源。在命名实体识别数据集上微调每个模型需要10到30分钟,训练在NVIDIA RTX3090 GPU上进行。使用批量大小为32时,至少需要14GB的GPU内存;当批量大小为1时,大约6.5GB的显存也可以运行这些模型。
数据
训练、评估和测试数据集直接取自MasakhaNER的GitHub仓库,几乎没有进行预处理,因为原始数据集质量很高。使用该数据的动机在于它是“首个用于10种非洲语言命名实体识别(NER)的大型、公开可用、高质量数据集”(来源)。高质量的数据以及引入该数据集的论文所做的基础工作,也是选择该数据集的原因。评估时使用了专门的测试集,其数据分布与训练集相似,因此该模型可能无法很好地泛化到其他分布,需要进一步测试来研究。数据的确切分布在此处有详细介绍。
预期用途
该模型旨在用于自然语言处理研究,例如可解释性或迁移学习。不支持在生产环境中使用该模型,因为其泛化能力和性能有限。特别是,它不适合用于任何可能影响人们的重要下游任务,因为模型的局限性可能会造成危害,具体如下所述。
局限性
- 该模型仅在一个(相对较小)的数据集上进行了训练,涵盖一个任务(命名实体识别)、一个领域(新闻文章)以及特定的时间段。结果可能无法泛化,如果用于其他任务,模型可能表现不佳,或者存在不公平/有偏差的情况。尽管该项目的目的是研究迁移学习,但模型在未训练的语言上的性能确实会受到影响。
- 由于该模型以xlm - roberta - base为起点(可能在特定语言上进行了领域自适应微调),因此该基础模型的局限性也可能适用于此。这些局限性可能包括偏向于其大部分训练数据的主流观点、缺乏依据以及在其他语言上的表现不佳(可能是由于训练数据不平衡)。
- 正如Adelani等人(2021)所示,一般来说,模型在处理长度超过3个单词的实体以及训练数据中未包含的实体时会遇到困难。这可能会使模型偏向于无法识别例如包含多个单词的人名,从而可能导致结果出现偏差。同样,不常见的名字(可能由于不同语言)在训练数据中未出现,也会被预测得更少。
- 此外,该模型尚未在实践中得到验证,如果在未验证其是否能按预期工作的情况下使用,可能会出现其他更微妙的问题。
隐私与伦理考虑
数据仅来自公开的新闻来源,可用数据应涵盖公众人物以及同意被报道的人。更多详细信息请参阅原始的MasakhaNER论文。在微调此模型期间,未进行明确的伦理考虑或调整。
指标
基于语言自适应的模型在性能上(大部分情况下)优于以xlm - roberta - base为起点的模型。主要指标是所有命名实体识别类别的综合F1得分。这些指标是在MasakhaNER的测试集上得出的,因此数据分布与训练集相似,这些结果并不能直接表明这些模型的泛化能力。从不同种子开始进行迁移学习时,迁移结果存在较大差异(测试了5种不同的种子),这表明迁移的微调过程可能不稳定。所使用的指标是为了与先前的工作保持一致,并便于研究。其他指标可能更适合其他用途。
注意事项和建议
总体而言,该模型在“日期”类别上的表现比其他类别差。因此,如果日期是关键因素,则可能需要考虑并解决这个问题,例如收集和标注更多数据。
模型结构
以下是该特定模型与其他训练模型相比的一些性能细节。所有这些指标都是在测试集上计算的,并选择了能给出最佳综合F1得分的种子。前三个结果列是所有类别的平均值,后四个列按类别提供性能数据。
该模型可以为一个分词预测以下标签(来源):
缩写 | 描述 |
---|---|
O | 命名实体之外 |
B - DATE | 紧接着另一个日期实体的日期实体的开始 |
I - DATE | 日期实体 |
B - PER | 紧接着另一个人名的人名的开始 |
I - PER | 人名 |
B - ORG | 紧接着另一个组织的组织的开始 |
I - ORG | 组织 |
B - LOC | 紧接着另一个地点的地点的开始 |
I - LOC | 地点 |
模型名称 | 起点 | 评估/微调语言 | F1 | 精确率 | 召回率 | F1 (日期) | F1 (地点) | F1 (组织) | F1 (人名) |
---|---|---|---|---|---|---|---|---|---|
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili) (本模型) | [swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili) | 斯瓦希里语 | 90.36 | 88.59 | 92.20 | 86.00 | 93.00 | 79.00 | 96.00 |
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili) | [hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa) | 斯瓦希里语 | 88.36 | 86.95 | 89.82 | 86.00 | 91.00 | 77.00 | 94.00 |
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili) | [ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo) | 斯瓦希里语 | 87.75 | 86.55 | 88.97 | 85.00 | 92.00 | 77.00 | 91.00 |
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili) | [kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda) | 斯瓦希里语 | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili) | [lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda) | 斯瓦希里语 | 88.93 | 87.64 | 90.25 | 83.00 | 92.00 | 79.00 | 95.00 |
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili) | [luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo) | 斯瓦希里语 | 87.93 | 86.91 | 88.97 | 83.00 | 91.00 | 76.00 | 94.00 |
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili) | [pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija) | 斯瓦希里语 | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili) | [wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof) | 斯瓦希里语 | 87.80 | 86.50 | 89.14 | 86.00 | 90.00 | 78.00 | 93.00 |
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili) | [yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba) | 斯瓦希里语 | 87.73 | 86.67 | 88.80 | 85.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili) | [base](https://huggingface.co/xlm - roberta - base) | 斯瓦希里语 | 88.71 | 86.84 | 90.67 | 83.00 | 91.00 | 79.00 | 95.00 |
📄 许可证
该模型遵循Apache许可证2.0版。








