xlm-roberta-base-finetuned-ner-naija開源模型 - 精準識別尼日利亞皮欽語命名實體

首頁

Xlm Roberta Base Finetuned Ner Naija

由mbeukman開發

基於xlm-roberta-base微調的命名實體識別模型，專門針對尼日利亞皮欽語優化

序列標註

Transformers

其他#非洲語言NER #皮欽語專用 #新聞實體識別

下載量 17

發布時間 : 3/2/2022

模型概述

該模型在MasakhaNER數據集的尼日利亞皮欽語部分進行微調，用於識別文本中的命名實體（如人名、地點、組織等）。

模型特點

非洲語言優化

專門針對尼日利亞皮欽語進行微調，填補了非洲語言NER模型的空白

多類別識別

可識別日期、人名、組織機構和地理位置等多種實體類型

高效訓練

在單個NVIDIA RTX3090顯卡上僅需10-30分鐘完成微調

模型能力

文本實體識別

多類別實體分類

非洲語言處理

使用案例

NLP研究

可解釋性研究

用於研究跨語言模型在非洲語言上的表現

遷移學習實驗

作為基礎模型進行其他非洲語言的NER任務遷移

🚀 xlm-roberta-base-finetuned-ner-naija

這是一個令牌分類（具體為命名實體識別，NER）模型，它在 MasakhaNER 數據集（特別是尼日利亞皮欽語部分）上對 xlm-roberta-base 進行了微調。

更多信息以及其他類似模型可在主 GitHub 倉庫中找到。

🚀 快速開始

要使用此模型（或其他模型），你可以按照以下步驟操作，只需更改模型名稱（來源）：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基於 Transformer 架構，在 MasakhaNER 數據集上進行微調。
可用於命名實體識別任務，特別是處理尼日利亞皮欽語新聞文章。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."

ner_results = nlp(example)
print(ner_results)

高級用法

文檔未提及高級用法相關代碼示例，故跳過該部分。

📚 詳細文檔

關於

此模型基於 Transformer 架構，並在 MasakhaNER 數據集上進行了微調。這是一個命名實體識別數據集，主要包含 10 種不同非洲語言的新聞文章。

該模型進行了 50 個輪次的微調，最大序列長度為 200，批量大小為 32，學習率為 5e - 5。此過程重複了 5 次（使用不同的隨機種子），上傳的這個模型在這 5 個種子中（測試集上的綜合 F1 分數）表現最佳。

該模型由我（Michael Beukman）在約翰內斯堡的威特沃特斯蘭德大學做項目時進行微調。截至 2021 年 11 月 20 日，這是版本 1。此模型遵循 Apache 許可證，版本 2.0。

聯繫與更多信息

有關模型的更多信息，包括訓練腳本、詳細結果和更多資源，你可以訪問主 GitHub 倉庫。你可以通過在此倉庫中提交問題與我聯繫。

訓練資源

為了保持開放性並報告所使用的資源，我們在此列出訓練過程所需的時間，以及復現此過程所需的最小資源。在 NER 數據集上微調每個模型需要 10 到 30 分鐘，並且是在 NVIDIA RTX3090 GPU 上進行的。要使用批量大小為 32，至少需要 14GB 的 GPU 內存，不過當使用批量大小為 1 時，大約 6.5GB 的顯存也可以運行這些模型。

數據

訓練、評估和測試數據集直接取自 MasakhaNER GitHub 倉庫，幾乎沒有進行預處理，因為原始數據集已經具有很高的質量。

使用此數據的動機在於，它是“第一個大規模、公開可用、高質量的十種非洲語言命名實體識別（NER）數據集”（來源）。高質量的數據以及引入該數據集的論文所奠定的基礎，是選擇此數據集的更多原因。在評估時，使用了專門的測試分割，該分割與訓練數據的分佈相同，因此該模型可能無法推廣到其他分佈，需要進一步測試來研究這一點。數據的確切分佈在此處有詳細介紹。

預期用途

此模型旨在用於自然語言處理研究，例如可解釋性或遷移學習。不支持在生產環境中使用此模型，因為其泛化能力和性能有限。特別是，它並非設計用於任何可能影響人們的重要下游任務，因為模型的侷限性（如下所述）可能會造成危害。

侷限性

此模型僅在一個（相對較小）的數據集上進行了訓練，涵蓋了一個任務（NER）、一個領域（新聞文章）和一段特定的時間範圍。如果用於其他任務，結果可能無法泛化，模型可能表現不佳，或者表現出不公平/有偏差的情況。儘管此項目的目的是研究遷移學習，但模型在未訓練過的語言上的性能確實會受到影響。

由於此模型以 xlm - roberta - base 為起點（可能在特定語言上進行了領域自適應微調），因此該基礎模型的侷限性也可能適用於此模型。這些侷限性可能包括偏向於其大部分訓練數據的主流觀點、缺乏依據以及在其他語言上的表現不佳（可能是由於訓練數據不平衡）。

正如 Adelani 等人（2021）所示，一般來說，模型在處理長度超過 3 個單詞的實體以及訓練數據中未包含的實體時會遇到困難。這可能會使模型偏向於無法識別例如包含多個單詞的人名，從而可能導致結果出現偏差。同樣，不常見的名稱（由於例如不同的語言）可能在訓練數據中未出現，因此也會較少被預測到。

此外，此模型尚未在實踐中得到驗證，如果在未驗證其是否能按預期工作的情況下使用，可能會出現其他更微妙的問題。

隱私與倫理考量

數據僅來自公開可用的新聞來源，可用的數據應僅涉及公眾人物以及那些同意被報道的人。更多詳細信息請參閱原始的 MasakhaNER 論文。

在微調此模型的過程中，未進行明確的倫理考量或調整。

指標

語言自適應模型在性能上（大部分）優於以 xlm - roberta - base 為起點的模型。我們的主要指標是所有 NER 類別的綜合 F1 分數。

這些指標是在 MasakhaNER 測試集上得出的，因此數據分佈與訓練集相似，這些結果並不能直接表明這些模型的泛化能力如何。

我們發現，從不同種子開始進行遷移學習時，遷移結果存在較大差異（測試了 5 種不同的種子），這表明遷移學習的微調過程可能不穩定。

選擇這些指標是為了與先前的工作保持一致，並便於研究。對於其他目的，可能需要使用其他更合適的指標。

注意事項和建議

一般來說，此模型在“日期”類別上的表現比其他類別差，因此如果日期是關鍵因素，則可能需要考慮並解決這個問題，例如收集和標註更多數據。

模型結構

以下是此特定模型與我們訓練的其他模型相比的一些性能細節。

所有這些指標都是在測試集上計算得出的，並且選擇了給出最佳整體 F1 分數的種子。前三個結果列是所有類別的平均值，後四個列按類別提供了性能數據。

此模型可以為一個令牌預測以下標籤（來源）：

縮寫	描述
O	命名實體之外
B - DATE	緊接另一個日期實體之後的日期實體的開始
I - DATE	日期實體
B - PER	緊接另一個人名之後的人名的開始
I - PER	人名
B - ORG	緊接另一個組織之後的組織的開始
I - ORG	組織
B - LOC	緊接另一個地點之後的地點的開始
I - LOC	地點

模型名稱	起點	評估/微調語言	F1	精確率	召回率	F1（日期）	F1（地點）	F1（組織）	F1（人名）
[xlm - roberta - base - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - naija)（此模型）	[base](https://huggingface.co/xlm - roberta - base)	pcm	88.89	88.13	89.66	92.00	87.00	82.00	94.00
[xlm - roberta - base - finetuned - naija - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - naija)	[pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija)	pcm	88.06	87.04	89.12	90.00	88.00	81.00	92.00
[xlm - roberta - base - finetuned - swahili - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - naija)	[swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili)	pcm	89.12	87.84	90.42	90.00	89.00	82.00	94.00