模型概述
模型特點
模型能力
使用案例
🚀 xlm-roberta-base-finetuned-ner-naija
這是一個令牌分類(具體為命名實體識別,NER)模型,它在 MasakhaNER 數據集(特別是尼日利亞皮欽語部分)上對 xlm-roberta-base 進行了微調。
更多信息以及其他類似模型可在 主 GitHub 倉庫 中找到。
🚀 快速開始
要使用此模型(或其他模型),你可以按照以下步驟操作,只需更改模型名稱(來源):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基於 Transformer 架構,在 MasakhaNER 數據集上進行微調。
- 可用於命名實體識別任務,特別是處理尼日利亞皮欽語新聞文章。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-ner-naija'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Mixed Martial Arts joinbodi , Ultimate Fighting Championship , UFC don decide say dem go enta back di octagon on Saturday , 9 May , for Jacksonville , Florida ."
ner_results = nlp(example)
print(ner_results)
高級用法
文檔未提及高級用法相關代碼示例,故跳過該部分。
📚 詳細文檔
關於
此模型基於 Transformer 架構,並在 MasakhaNER 數據集上進行了微調。這是一個命名實體識別數據集,主要包含 10 種不同非洲語言的新聞文章。
該模型進行了 50 個輪次的微調,最大序列長度為 200,批量大小為 32,學習率為 5e - 5。此過程重複了 5 次(使用不同的隨機種子),上傳的這個模型在這 5 個種子中(測試集上的綜合 F1 分數)表現最佳。
該模型由我(Michael Beukman)在約翰內斯堡的威特沃特斯蘭德大學做項目時進行微調。截至 2021 年 11 月 20 日,這是版本 1。此模型遵循 Apache 許可證,版本 2.0。
聯繫與更多信息
有關模型的更多信息,包括訓練腳本、詳細結果和更多資源,你可以訪問 主 GitHub 倉庫。你可以通過在此倉庫中提交問題與我聯繫。
訓練資源
為了保持開放性並報告所使用的資源,我們在此列出訓練過程所需的時間,以及復現此過程所需的最小資源。在 NER 數據集上微調每個模型需要 10 到 30 分鐘,並且是在 NVIDIA RTX3090 GPU 上進行的。要使用批量大小為 32,至少需要 14GB 的 GPU 內存,不過當使用批量大小為 1 時,大約 6.5GB 的顯存也可以運行這些模型。
數據
訓練、評估和測試數據集直接取自 MasakhaNER GitHub 倉庫,幾乎沒有進行預處理,因為原始數據集已經具有很高的質量。
使用此數據的動機在於,它是“第一個大規模、公開可用、高質量的十種非洲語言命名實體識別(NER)數據集”(來源)。高質量的數據以及引入該數據集的論文所奠定的基礎,是選擇此數據集的更多原因。在評估時,使用了專門的測試分割,該分割與訓練數據的分佈相同,因此該模型可能無法推廣到其他分佈,需要進一步測試來研究這一點。數據的確切分佈在 此處 有詳細介紹。
預期用途
此模型旨在用於自然語言處理研究,例如可解釋性或遷移學習。不支持在生產環境中使用此模型,因為其泛化能力和性能有限。特別是,它並非設計用於任何可能影響人們的重要下游任務,因為模型的侷限性(如下所述)可能會造成危害。
侷限性
此模型僅在一個(相對較小)的數據集上進行了訓練,涵蓋了一個任務(NER)、一個領域(新聞文章)和一段特定的時間範圍。如果用於其他任務,結果可能無法泛化,模型可能表現不佳,或者表現出不公平/有偏差的情況。儘管此項目的目的是研究遷移學習,但模型在未訓練過的語言上的性能確實會受到影響。
由於此模型以 xlm - roberta - base 為起點(可能在特定語言上進行了領域自適應微調),因此該基礎模型的侷限性也可能適用於此模型。這些侷限性可能包括偏向於其大部分訓練數據的主流觀點、缺乏依據以及在其他語言上的表現不佳(可能是由於訓練數據不平衡)。
正如 Adelani 等人(2021) 所示,一般來說,模型在處理長度超過 3 個單詞的實體以及訓練數據中未包含的實體時會遇到困難。這可能會使模型偏向於無法識別例如包含多個單詞的人名,從而可能導致結果出現偏差。同樣,不常見的名稱(由於例如不同的語言)可能在訓練數據中未出現,因此也會較少被預測到。
此外,此模型尚未在實踐中得到驗證,如果在未驗證其是否能按預期工作的情況下使用,可能會出現其他更微妙的問題。
隱私與倫理考量
數據僅來自公開可用的新聞來源,可用的數據應僅涉及公眾人物以及那些同意被報道的人。更多詳細信息請參閱原始的 MasakhaNER 論文。
在微調此模型的過程中,未進行明確的倫理考量或調整。
指標
語言自適應模型在性能上(大部分)優於以 xlm - roberta - base 為起點的模型。我們的主要指標是所有 NER 類別的綜合 F1 分數。
這些指標是在 MasakhaNER 測試集上得出的,因此數據分佈與訓練集相似,這些結果並不能直接表明這些模型的泛化能力如何。
我們發現,從不同種子開始進行遷移學習時,遷移結果存在較大差異(測試了 5 種不同的種子),這表明遷移學習的微調過程可能不穩定。
選擇這些指標是為了與先前的工作保持一致,並便於研究。對於其他目的,可能需要使用其他更合適的指標。
注意事項和建議
一般來說,此模型在“日期”類別上的表現比其他類別差,因此如果日期是關鍵因素,則可能需要考慮並解決這個問題,例如收集和標註更多數據。
模型結構
以下是此特定模型與我們訓練的其他模型相比的一些性能細節。
所有這些指標都是在測試集上計算得出的,並且選擇了給出最佳整體 F1 分數的種子。前三個結果列是所有類別的平均值,後四個列按類別提供了性能數據。
此模型可以為一個令牌預測以下標籤(來源):
縮寫 | 描述 |
---|---|
O | 命名實體之外 |
B - DATE | 緊接另一個日期實體之後的日期實體的開始 |
I - DATE | 日期實體 |
B - PER | 緊接另一個人名之後的人名的開始 |
I - PER | 人名 |
B - ORG | 緊接另一個組織之後的組織的開始 |
I - ORG | 組織 |
B - LOC | 緊接另一個地點之後的地點的開始 |
I - LOC | 地點 |
模型名稱 | 起點 | 評估/微調語言 | F1 | 精確率 | 召回率 | F1(日期) | F1(地點) | F1(組織) | F1(人名) |
---|---|---|---|---|---|---|---|---|---|
[xlm - roberta - base - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - naija)(此模型) | [base](https://huggingface.co/xlm - roberta - base) | pcm | 88.89 | 88.13 | 89.66 | 92.00 | 87.00 | 82.00 | 94.00 |
[xlm - roberta - base - finetuned - naija - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - naija) | [pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija) | pcm | 88.06 | 87.04 | 89.12 | 90.00 | 88.00 | 81.00 | 92.00 |
[xlm - roberta - base - finetuned - swahili - finetuned - ner - naija](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - naija) | [swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili) | pcm | 89.12 | 87.84 | 90.42 | 90.00 | 89.00 | 82.00 | 94.00 |
🔧 技術細節
文檔中關於技術細節的描述已融入詳細文檔部分,故不再單獨列出。
📄 許可證
此模型遵循 Apache 許可證,版本 2.0。








