🚀 bert-base-multilingual-cased-masakhaner
distilbert-base-multilingual-cased-masakhaner 是首个基于微调 BERT 基础模型的 9 种非洲语言(豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)的 命名实体识别 模型。它经过训练,能够识别四种类型的实体:日期与时间(DATE)、地点(LOC)、组织(ORG)和人物(PER)。
🚀 快速开始
本模型可与 Transformers 的 pipeline 结合使用,用于命名实体识别(NER)。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 多语言支持:支持豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语等 9 种非洲语言。
- 实体类型识别:能够识别日期与时间、地点、组织和人物四种类型的实体。
📦 安装指南
暂未提及具体安装步骤,可参考 Transformers 库的安装方法。
📚 详细文档
模型描述
distilbert-base-multilingual-cased-masakhaner 是一个基于 distilbert-base-multilingual-cased 模型,在从 Masakhane MasakhaNER 数据集获取的非洲语言数据集聚合上进行微调得到的模型。
预期用途与局限性
如何使用
可以使用 Transformers 的 pipeline 进行命名实体识别。代码示例见上文“使用示例”部分。
局限性和偏差
该模型受其特定时间段内带实体标注的新闻文章训练数据集的限制,可能无法很好地泛化到不同领域的所有用例。
训练数据
该模型在 9 种非洲命名实体识别(NER)数据集(豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语)的 Masakhane MasakhaNER 数据集上进行了微调。
训练数据集区分实体的开始和延续,以便如果有连续的同类型实体,模型可以输出第二个实体的开始位置。在数据集中,每个标记将被分类为以下类别之一:
属性 |
详情 |
O |
命名实体之外 |
B - DATE |
另一个 DATE 实体之后的 DATE 实体的开始 |
I - DATE |
DATE 实体 |
B - PER |
另一个人物名字之后的人物名字的开始 |
I - PER |
人物名字 |
B - ORG |
另一个组织之后的组织的开始 |
I - ORG |
组织 |
B - LOC |
另一个地点之后的地点的开始 |
I - LOC |
地点 |
训练过程
该模型在单个 NVIDIA V100 GPU 上进行训练,使用了 原始 MasakhaNER 论文 中推荐的超参数,该论文在 MasakhaNER 语料库上对模型进行了训练和评估。
测试集评估结果(F1 分数)
语言 |
F1 分数 |
豪萨语(hau) |
88.88 |
伊博语(ibo) |
84.87 |
卢旺达语(kin) |
74.19 |
卢干达语(lug) |
78.43 |
卢奥语(luo) |
73.32 |
尼日利亚皮钦语(pcm) |
87.98 |
斯瓦希里语(swa) |
86.20 |
沃洛夫语(wol) |
64.67 |
约鲁巴语(yor) |
78.10 |
📄 许可证
暂未提及相关许可证信息。
BibTeX 条目和引用信息
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}