🚀 xlm-roberta-large-masakhaner
xlm-roberta-large-masakhaner 是首個基於微調的 XLM-RoBERTa 大模型的、用於 10 種非洲語言(阿姆哈拉語、豪薩語、伊博語、基尼亞盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語)的命名實體識別(Named Entity Recognition,NER)模型。它在 NER 任務中達到了最先進的性能。該模型經過訓練,能夠識別四種類型的實體:日期和時間(DATE)、地點(LOC)、組織(ORG)和人物(PER)。
🚀 快速開始
你可以使用 Transformers 的 pipeline
來使用這個模型進行命名實體識別。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-masakhaner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 多語言支持:支持阿姆哈拉語、豪薩語、伊博語、基尼亞盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語等 10 種非洲語言。
- 先進性能:在 NER 任務中達到了最先進的性能。
- 實體類型識別:能夠識別日期和時間、地點、組織和人物四種類型的實體。
📦 安裝指南
文檔未提及安裝步驟,如需使用可參考 Transformers 庫的安裝方法。
📚 詳細文檔
模型描述
xlm-roberta-large-masakhaner 是基於微調的 XLM-RoBERTa 大模型的命名實體識別模型。具體來說,該模型是在從 Masakhane MasakhaNER 數據集獲取的非洲語言數據集聚合上進行微調的 xlm-roberta-large 模型。
預期用途和侷限性
如何使用
你可以使用 Transformers 的 pipeline
來使用這個模型進行命名實體識別,示例代碼見“快速開始”部分。
侷限性和偏差
該模型受其特定時間段內實體標註新聞文章的訓練數據集限制,可能無法很好地泛化到不同領域的所有用例。
訓練數據
該模型在 10 種非洲 NER 數據集(阿姆哈拉語、豪薩語、伊博語、基尼亞盧旺達語、盧幹達語、尼日利亞皮欽語、斯瓦希里語、沃洛夫語和約魯巴語)的 Masakhane MasakhaNER 數據集上進行了微調。
訓練數據集區分實體的開始和延續,以便如果有連續的相同類型實體,模型可以輸出第二個實體的開始位置。在數據集中,每個標記將被分類為以下類別之一:
縮寫 |
詳情 |
O |
命名實體之外 |
B-DATE |
另一個 DATE 實體之後的 DATE 實體的開始 |
I-DATE |
DATE 實體 |
B-PER |
另一個人物姓名之後的人物姓名的開始 |
I-PER |
人物姓名 |
B-ORG |
另一個組織之後的組織的開始 |
I-ORG |
組織 |
B-LOC |
另一個地點之後的地點的開始 |
I-LOC |
地點 |
訓練過程
該模型在單個 NVIDIA V100 GPU 上進行訓練,使用了 原始 MasakhaNER 論文 中推薦的超參數,該論文在 MasakhaNER 語料庫上對模型進行了訓練和評估。
測試集評估結果(F 分數)
語言 |
F1 分數 |
amh |
75.76 |
hau |
91.75 |
ibo |
86.26 |
kin |
76.38 |
lug |
84.64 |
luo |
80.65 |
pcm |
89.55 |
swa |
89.48 |
wol |
70.70 |
yor |
82.05 |
BibTeX 引用和引用信息
@article{adelani21tacl,
title = {Masakha{NER}: Named Entity Recognition for African Languages},
author = {David Ifeoluwa Adelani and Jade Abbott and Graham Neubig and Daniel D'souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and Shamsuddeen Muhammad and Chris Chinenye Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and Jesujoba Alabi and Seid Muhie Yimam and Tajuddeen Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and Verrah Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and Chiamaka Chukwuneke and Nkiruka Odu and Eric Peter Wairagala and Samuel Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane MBOUP and Dibora Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima DIOP and Abdoulaye Diallo and Adewale Akinfaderin and Tendai Marengereke and Salomey Osei},
journal = {Transactions of the Association for Computational Linguistics (TACL)},
month = {},
url = {https://arxiv.org/abs/2103.11811},
year = {2021}
}