模型概述
模型特點
模型能力
使用案例
🚀 XLM-RoBERTa基礎模型微調阿姆哈拉語後再微調斯瓦希里語命名實體識別模型
這是一個用於詞元分類(具體為命名實體識別,NER)的模型。它在MasakhaNER數據集(特別是斯瓦希里語部分)上對xlm-roberta-base-finetuned-amharic進行了微調。
更多信息以及其他類似模型可在主GitHub倉庫中找到。
🚀 快速開始
要使用此模型(或其他模型),你可以按以下操作,只需更改模型名稱(來源):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = 'mbeukman/xlm-roberta-base-finetuned-amharic-finetuned-ner-swahili'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Wizara ya afya ya Tanzania imeripoti Jumatatu kuwa , watu takriban 14 zaidi wamepata maambukizi ya Covid - 19 ."
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基於Transformer架構,在MasakhaNER數據集上進行微調。
- 能夠對斯瓦希里語進行命名實體識別。
- 與直接使用xlm-roberta-base相比,在語言自適應方面表現更優。
🔧 技術細節
模型微調
該模型在MasakhaNER數據集上進行了微調,這是一個命名實體識別數據集,包含10種不同非洲語言的新聞文章。模型微調了50個週期,最大序列長度為200,批量大小為32,學習率為5e - 5。此過程重複了5次(使用不同的隨機種子),上傳的這個模型在這5個種子的測試集上聚合F1分數表現最佳。
訓練資源
每個模型在NER數據集上的微調時間在10到30分鐘之間,使用NVIDIA RTX3090 GPU進行訓練。若要使用批量大小為32,至少需要14GB的GPU內存;當批量大小為1時,大約6.5GB的顯存也可以容納這些模型。
數據來源
訓練、評估和測試數據集直接取自MasakhaNER的GitHub倉庫,幾乎沒有進行預處理,因為原始數據集質量很高。使用該數據的動機在於它是“首個大規模、公開可用、高質量的十種非洲語言命名實體識別(NER)數據集”(來源)。高質量的數據以及引入該數據集的論文所做的基礎工作也是選擇此數據集的原因。評估使用了專門的測試分割集,其數據分佈與訓練集相似,因此該模型可能無法很好地泛化到其他分佈,需要進一步測試來研究這一點。數據的確切分佈在此處有詳細介紹。
📚 詳細文檔
預期用途
該模型旨在用於自然語言處理研究,例如可解釋性或遷移學習。不支持在生產環境中使用此模型,因為其泛化能力和性能有限。特別是,它並非設計用於可能影響人們的任何重要下游任務,因為模型的侷限性可能會造成危害。
侷限性
- 該模型僅在一個(相對較小的)數據集上進行訓練,涵蓋一個任務(NER)、一個領域(新聞文章)以及特定的時間段。結果可能無法泛化,如果用於其他任務,模型可能表現不佳,或者表現出不公平/有偏差的情況。
- 儘管該項目的目的是研究遷移學習,但模型在未訓練的語言上的性能會受到影響。
- 由於該模型以xlm - roberta - base為起點(可能在特定語言上進行了領域自適應微調),因此也可能存在與該基礎模型類似的侷限性,例如傾向於其大部分訓練數據的主流觀點、缺乏依據以及在其他語言上的表現不佳(可能是由於訓練數據不平衡)。
- 正如Adelani等人(2021)所示,模型通常在處理長度超過3個詞的實體和訓練數據中未包含的實體時存在困難。這可能導致模型在識別例如多詞人名時出現偏差,從而可能導致結果的不準確。同樣,不常見的名稱(由於不同語言等原因未在訓練數據中出現)也更難被預測。
- 此外,該模型尚未在實踐中得到驗證,如果在未驗證其功能的情況下使用,可能會出現其他更細微的問題。
隱私與倫理考量
數據僅來自公開的新聞來源,可用數據應僅涉及公眾人物以及同意被報道的人。更多詳細信息請參閱原始的MasakhaNER論文。在微調此模型期間,未進行明確的倫理考量或調整。
指標
語言自適應模型在大多數情況下比直接使用xlm - roberta - base表現更優。主要指標是所有NER類別的聚合F1分數。這些指標是在MasakhaNER測試集上得出的,因此數據分佈與訓練集相似,這些結果並不能直接表明這些模型的泛化能力。從不同種子開始進行遷移學習時,遷移結果存在較大差異(測試了5種不同的種子),這表明遷移的微調過程可能不穩定。所使用的指標與先前的工作保持一致,以方便研究。其他指標可能更適合其他目的。
注意事項和建議
總體而言,該模型在“日期”類別上的表現比其他類別差。因此,如果日期是關鍵因素,則可能需要考慮並解決這個問題,例如收集和標註更多數據。
模型結構
以下是該特定模型與我們訓練的其他模型相比的一些性能細節。所有這些指標都是在測試集上計算的,並選擇了能給出最佳整體F1分數的種子。前三列結果是所有類別的平均值,後四列按類別提供性能數據。
該模型可以為詞元預測以下標籤(來源):
縮寫 | 描述 |
---|---|
O | 命名實體之外 |
B - DATE | 緊接另一個日期實體的日期實體開頭 |
I - DATE | 日期實體 |
B - PER | 緊接另一個人名的人名開頭 |
I - PER | 人名 |
B - ORG | 緊接另一個組織的組織開頭 |
I - ORG | 組織 |
B - LOC | 緊接另一個地點的地點開頭 |
I - LOC | 地點 |
模型名稱 | 起始點 | 評估/微調語言 | F1 | 精確率 | 召回率 | F1(日期) | F1(地點) | F1(組織) | F1(人名) |
---|---|---|---|---|---|---|---|---|---|
[xlm - roberta - base - finetuned - amharic - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - amharic - finetuned - ner - swahili)(本模型) | [amh](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - amharic) | 斯瓦希里語 | 86.66 | 85.23 | 88.13 | 84.00 | 90.00 | 74.00 | 92.00 |
[xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - hausa - finetuned - ner - swahili) | [hau](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - hausa) | 斯瓦希里語 | 88.36 | 86.95 | 89.82 | 86.00 | 91.00 | 77.00 | 94.00 |
[xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - igbo - finetuned - ner - swahili) | [ibo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - igbo) | 斯瓦希里語 | 87.75 | 86.55 | 88.97 | 85.00 | 92.00 | 77.00 | 91.00 |
[xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - kinyarwanda - finetuned - ner - swahili) | [kin](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - kinyarwanda) | 斯瓦希里語 | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luganda - finetuned - ner - swahili) | [lug](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luganda) | 斯瓦希里語 | 88.93 | 87.64 | 90.25 | 83.00 | 92.00 | 79.00 | 95.00 |
[xlm - roberta - base - finetuned - luo - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - luo - finetuned - ner - swahili) | [luo](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - luo) | 斯瓦希里語 | 87.93 | 86.91 | 88.97 | 83.00 | 91.00 | 76.00 | 94.00 |
[xlm - roberta - base - finetuned - naija - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - naija - finetuned - ner - swahili) | [pcm](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - naija) | 斯瓦希里語 | 87.26 | 85.15 | 89.48 | 83.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - swahili - finetuned - ner - swahili) | [swa](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - swahili) | 斯瓦希里語 | 90.36 | 88.59 | 92.20 | 86.00 | 93.00 | 79.00 | 96.00 |
[xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - wolof - finetuned - ner - swahili) | [wol](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - wolof) | 斯瓦希里語 | 87.80 | 86.50 | 89.14 | 86.00 | 90.00 | 78.00 | 93.00 |
[xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - yoruba - finetuned - ner - swahili) | [yor](https://huggingface.co/Davlan/xlm - roberta - base - finetuned - yoruba) | 斯瓦希里語 | 87.73 | 86.67 | 88.80 | 85.00 | 91.00 | 75.00 | 93.00 |
[xlm - roberta - base - finetuned - ner - swahili](https://huggingface.co/mbeukman/xlm - roberta - base - finetuned - ner - swahili) | [base](https://huggingface.co/xlm - roberta - base) | 斯瓦希里語 | 88.71 | 86.84 | 90.67 | 83.00 | 91.00 | 79.00 | 95.00 |
📄 許可證
該模型遵循Apache許可證2.0版。
聯繫信息與更多資源
有關模型的更多信息,包括訓練腳本、詳細結果和其他資源,你可以訪問主GitHub倉庫。你可以通過在此倉庫中提交問題來與我聯繫。








