🚀 bert-base-multilingual-cased-masakhaner
distilbert-base-multilingual-cased-masakhaner 是首個基於微調 BERT 基礎模型的 9 種非洲語言(豪薩語、伊博語、盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語)的 命名實體識別 模型。它經過訓練,能夠識別四種類型的實體:日期與時間(DATE)、地點(LOC)、組織(ORG)和人物(PER)。
🚀 快速開始
本模型可與 Transformers 的 pipeline 結合使用,用於命名實體識別(NER)。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 多語言支持:支持豪薩語、伊博語、盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語等 9 種非洲語言。
- 實體類型識別:能夠識別日期與時間、地點、組織和人物四種類型的實體。
📦 安裝指南
暫未提及具體安裝步驟,可參考 Transformers 庫的安裝方法。
📚 詳細文檔
模型描述
distilbert-base-multilingual-cased-masakhaner 是一個基於 distilbert-base-multilingual-cased 模型,在從 Masakhane MasakhaNER 數據集獲取的非洲語言數據集聚合上進行微調得到的模型。
預期用途與侷限性
如何使用
可以使用 Transformers 的 pipeline 進行命名實體識別。代碼示例見上文“使用示例”部分。
侷限性和偏差
該模型受其特定時間段內帶實體標註的新聞文章訓練數據集的限制,可能無法很好地泛化到不同領域的所有用例。
訓練數據
該模型在 9 種非洲命名實體識別(NER)數據集(豪薩語、伊博語、盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語)的 Masakhane MasakhaNER 數據集上進行了微調。
訓練數據集區分實體的開始和延續,以便如果有連續的同類型實體,模型可以輸出第二個實體的開始位置。在數據集中,每個標記將被分類為以下類別之一:
屬性 |
詳情 |
O |
命名實體之外 |
B - DATE |
另一個 DATE 實體之後的 DATE 實體的開始 |
I - DATE |
DATE 實體 |
B - PER |
另一個人物名字之後的人物名字的開始 |
I - PER |
人物名字 |
B - ORG |
另一個組織之後的組織的開始 |
I - ORG |
組織 |
B - LOC |
另一個地點之後的地點的開始 |
I - LOC |
地點 |
訓練過程
該模型在單個 NVIDIA V100 GPU 上進行訓練,使用了 原始 MasakhaNER 論文 中推薦的超參數,該論文在 MasakhaNER 語料庫上對模型進行了訓練和評估。
測試集評估結果(F1 分數)
語言 |
F1 分數 |
豪薩語(hau) |
88.88 |
伊博語(ibo) |
84.87 |
盧旺達語(kin) |
74.19 |
盧幹達語(lug) |
78.43 |
盧奧語(luo) |
73.32 |
尼日利亞皮欽語(pcm) |
87.98 |
斯瓦希里語(swa) |
86.20 |
沃洛夫語(wol) |
64.67 |
約魯巴語(yor) |
78.10 |
📄 許可證
暫未提及相關許可證信息。
BibTeX 條目和引用信息
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}