XLM-RoBERTa開源命名實體識別模型 - 精準識別斯瓦希里語實體信息

首頁

Xlm Roberta Base Finetuned Luganda Finetuned Ner Swahili

由mbeukman開發

這是一個基於XLM-RoBERTa模型，在馬薩卡NER數據集斯瓦希里語部分進行微調的命名實體識別模型。

序列標註

Transformers

其他#非洲語言NER #跨語言遷移 #新聞實體識別

下載量 17

發布時間 : 3/2/2022

模型概述

該模型專門用於斯瓦希里語的命名實體識別任務，能夠識別文本中的日期、地點、組織和人名等實體。

模型特點

跨語言遷移學習

基於盧幹達語微調的XLM-RoBERTa模型進一步微調於斯瓦希里語NER任務

高性能

在斯瓦希里語NER任務上達到88.93的F1分數

多類別識別

能夠識別日期、地點、組織和人名等多種實體類型

模型能力

斯瓦希里語文本分析

命名實體識別

多類別實體標註

使用案例

NLP研究

可解釋性研究

研究模型在非洲語言上的表現和可解釋性

遷移學習研究

探索跨語言遷移學習的效果

信息提取

新聞分析

從斯瓦希里語新聞中提取關鍵實體信息

🚀 XLM-RoBERTa基礎模型微調盧幹達語後再微調斯瓦希里語命名實體識別模型

這是一個標記分類（具體為命名實體識別，NER）模型，它在MasakhaNER數據集（特別是斯瓦希里語部分）上對xlm-roberta-base-finetuned-luganda進行了微調。

更多信息以及其他類似模型可在主GitHub倉庫中找到。

✨ 主要特性

基於Transformer架構，在MasakhaNER數據集上進行微調。
該數據集包含10種不同非洲語言的新聞文章，用於命名實體識別。
模型經過50個訓練週期的微調，最大序列長度為200，批量大小為32，學習率為5e - 5。
此過程重複了5次（使用不同的隨機種子），上傳的這個模型在這5個種子的測試集上聚合F1分數表現最佳。

📦 安裝指南

文檔中未提及安裝步驟，可參考相關依賴庫的安裝說明，如transformers庫。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-luganda-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."

ner_results = nlp(example)
print(ner_results)

📚 詳細文檔

關於模型

此模型基於Transformer架構，在MasakhaNER數據集上進行微調。MasakhaNER是一個命名實體識別數據集，主要包含10種不同非洲語言的新聞文章。

模型由Michael Beukman在約翰內斯堡的威特沃特斯蘭德大學做項目時進行微調。截至2021年11月20日，這是版本1。該模型遵循Apache許可證，版本2.0。

聯繫與更多信息

有關模型的更多信息，包括訓練腳本、詳細結果和其他資源，可訪問主GitHub倉庫。你可以通過在該倉庫中提交問題與作者聯繫。

訓練資源

為了保證透明度並報告所使用的資源，這裡列出了訓練過程所需的時間以及復現所需的最低資源。在NER數據集上微調每個模型需要10到30分鐘，並且是在NVIDIA RTX3090 GPU上進行的。要使用32的批量大小，至少需要14GB的GPU內存，不過當使用批量大小為1時，大約6.5GB的顯存也可以運行這些模型。

數據

訓練、評估和測試數據集直接取自MasakhaNER的GitHub倉庫，幾乎沒有進行預處理，因為原始數據集已經具有很高的質量。

使用此數據的動機是，它是“第一個用於十種非洲語言的大型、公開可用、高質量的命名實體識別（NER）數據集”（來源）。高質量的數據以及引入該數據集的論文所做的基礎工作，是選擇該數據集的更多原因。在評估時，使用了專門的測試集，該測試集與訓練數據的分佈相同，因此該模型可能無法推廣到其他分佈，需要進一步測試來研究這一點。數據的確切分佈在此處有詳細介紹。

預期用途

此模型旨在用於自然語言處理（NLP）研究，例如可解釋性或遷移學習。不支持在生產環境中使用此模型，因為其泛化能力和性能有限。特別是，它不適合用於任何可能影響人們的重要下游任務，因為模型的侷限性可能會造成危害，具體如下所述。

侷限性

此模型僅在一個（相對較小的）數據集上進行訓練，涵蓋一個任務（NER）、一個領域（新聞文章）以及特定的時間段。結果可能無法泛化，如果用於其他任務，模型可能表現不佳，或者表現出不公平/有偏差的情況。儘管該項目的目的是研究遷移學習，但模型在未訓練的語言上的性能確實會受到影響。

由於此模型以xlm - roberta - base為起點（可能在特定語言上進行了領域自適應微調），因此該模型的侷限性也適用於此。這些侷限性可能包括偏向於大部分訓練數據的主流觀點、缺乏基礎以及在其他語言上的結果不佳（可能是由於訓練數據不平衡）。

正如Adelani等人（2021）所示，模型通常在處理長度超過3個單詞的實體以及訓練數據中未包含的實體時存在困難。這可能會導致模型偏向於不識別例如包含多個單詞的人名，從而可能導致結果出現偏差。同樣，不常見的名稱（可能由於不同語言的原因未在訓練數據中出現）也會較少被預測。

此外，此模型尚未在實踐中進行驗證，如果在未驗證其是否符合預期的情況下使用，可能會出現其他更微妙的問題。

隱私與倫理考量

數據僅來自公開的新聞來源，可用數據應涵蓋公眾人物以及同意被報道的人。更多詳細信息請參閱原始的MasakhaNER論文。

在微調此模型期間，未進行明確的倫理考量或調整。

指標

基於語言自適應的模型在性能上（大部分）優於以xlm - roberta - base為起點的模型。主要指標是所有NER類別的聚合F1分數。

這些指標是在MasakhaNER的測試集上得出的，因此數據分佈與訓練集相似，這些結果並不能直接表明這些模型的泛化能力。

當從不同的種子開始訓練時，遷移結果存在很大差異（測試了5個不同的種子），這表明遷移的微調過程可能不穩定。

選擇這些指標是為了與先前的工作保持一致，並便於研究。其他指標可能更適合其他目的。

注意事項和建議

總體而言，此模型在“日期”類別上的表現比其他類別差，因此如果日期是關鍵因素，則可能需要考慮並解決這個問題，例如收集和標註更多數據。

模型結構

以下是此特定模型與我們訓練的其他模型的一些性能細節對比。

所有這些指標都是在測試集上計算的，並且選擇了能給出最佳整體F1分數的種子。前三列結果是所有類別的平均值，後四列按類別提供性能指標。

此模型可以為標記預測以下標籤（來源）：

縮寫	描述
O	命名實體之外
B - DATE	緊接著另一個日期實體的日期實體的開始
I - DATE	日期實體
B - PER	緊接著另一個人名的人名的開始
I - PER	人名
B - ORG	緊接著另一個組織的組織的開始
I - ORG	組織
B - LOC	緊接著另一個地點的地點的開始
I - LOC	地點

模型名稱	起始點	評估/微調語言	F1	精確率	召回率	F1（日期）	F1（地點）	F1（組織）	F1（人名）
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili)（此模型）	[lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda)	斯瓦希里語	88.93	87.64	90.25	83.00	92.00	79.00	95.00
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili)	[hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa)	斯瓦希里語	88.36	86.95	89.82	86.00	91.00	77.00	94.00
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili)	[ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo)	斯瓦希里語	87.75	86.55	88.97	85.00	92.00	77.00	91.00
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili)	[kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda)	斯瓦希里語	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili)	[luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo)	斯瓦希里語	87.93	86.91	88.97	83.00	91.00	76.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	斯瓦希里語	87.26	85.15	89.48	83.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	斯瓦希里語	90.36	88.59	92.20	86.00	93.00	79.00	96.00
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili)	[wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof)	斯瓦希里語	87.80	86.50	89.14	86.00	90.00	78.00	93.00
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili)	[yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba)	斯瓦希里語	87.73	86.67	88.80	85.00	91.00	75.00	93.00
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili)	[base](https://huggingface.co/xlm - roberta - base)	斯瓦希里語	88.71	86.84	90.67	83.00	91.00	79.00	95.00