Distilbert多语言模型 - 开源免费，精准识别9种非洲语言命名实体

首页

Distilbert Base Multilingual Cased Masakhaner

由 Davlan 开发

基于微调BERT基础模型、面向9种非洲语言的命名实体识别模型

序列标注

Transformers

#非洲语言NER #多语言实体识别 #新闻领域实体抽取

下载量 40

发布时间 : 3/2/2022

模型简介

该模型经过训练可识别四类实体：日期时间(DATE)、地点(LOC)、组织(ORG)和人物(PER)，支持9种非洲语言。

模型特点

多语言支持

支持9种非洲语言的命名实体识别

高效模型

基于distilbert-base-multilingual-cased，在保持性能的同时更加轻量

实体类型识别

能够识别日期时间、地点、组织和人物四类实体

模型能力

命名实体识别

多语言文本处理

使用案例

文本分析

新闻文本实体提取

从非洲语言的新闻文本中提取关键实体信息

可识别日期、地点、组织和人物等关键信息

🚀 bert-base-multilingual-cased-masakhaner

distilbert-base-multilingual-cased-masakhaner 是首个基于微调 BERT 基础模型的 9 种非洲语言（豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语）的 命名实体识别 模型。它经过训练，能够识别四种类型的实体：日期与时间（DATE）、地点（LOC）、组织（ORG）和人物（PER）。

🚀 快速开始

本模型可与 Transformers 的 pipeline 结合使用，用于命名实体识别（NER）。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

多语言支持：支持豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语等 9 种非洲语言。
实体类型识别：能够识别日期与时间、地点、组织和人物四种类型的实体。

📦 安装指南

暂未提及具体安装步骤，可参考 Transformers 库的安装方法。

📚 详细文档

模型描述

distilbert-base-multilingual-cased-masakhaner 是一个基于 distilbert-base-multilingual-cased 模型，在从 Masakhane MasakhaNER 数据集获取的非洲语言数据集聚合上进行微调得到的模型。

预期用途与局限性

如何使用

可以使用 Transformers 的 pipeline 进行命名实体识别。代码示例见上文“使用示例”部分。

局限性和偏差

该模型受其特定时间段内带实体标注的新闻文章训练数据集的限制，可能无法很好地泛化到不同领域的所有用例。

训练数据

该模型在 9 种非洲命名实体识别（NER）数据集（豪萨语、伊博语、卢旺达语、卢干达语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语）的 Masakhane MasakhaNER 数据集上进行了微调。

训练数据集区分实体的开始和延续，以便如果有连续的同类型实体，模型可以输出第二个实体的开始位置。在数据集中，每个标记将被分类为以下类别之一：

属性	详情
O	命名实体之外
B - DATE	另一个 DATE 实体之后的 DATE 实体的开始
I - DATE	DATE 实体
B - PER	另一个人物名字之后的人物名字的开始
I - PER	人物名字
B - ORG	另一个组织之后的组织的开始
I - ORG	组织
B - LOC	另一个地点之后的地点的开始
I - LOC	地点

训练过程

该模型在单个 NVIDIA V100 GPU 上进行训练，使用了原始 MasakhaNER 论文中推荐的超参数，该论文在 MasakhaNER 语料库上对模型进行了训练和评估。

测试集评估结果（F1 分数）

语言	F1 分数
豪萨语（hau）	88.88
伊博语（ibo）	84.87
卢旺达语（kin）	74.19
卢干达语（lug）	78.43
卢奥语（luo）	73.32
尼日利亚皮钦语（pcm）	87.98
斯瓦希里语（swa）	86.20
沃洛夫语（wol）	64.67
约鲁巴语（yor）	78.10

📄 许可证

暂未提及相关许可证信息。

BibTeX 条目和引用信息

@article{adelani21tacl,
    title = {Masakha{NER}: Named Entity Recognition for African Languages},
    author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
    journal = {Transactions of the Association for Computational Linguistics (TACL)},
    month = {},
    url = {https://arxiv.org/abs/2103.11811},
    year = {2021}
}