🚀 Serengeti
Serengeti是一套大規模多語言語言模型,覆蓋517種非洲語言及語言變體。該模型在預訓練過程中獲取了有價值的、可泛化的語言信息,在自然語言理解任務上表現出色,有助於解決現有語言模型對非洲語言覆蓋不足的問題。
🚀 快速開始
多語言預訓練語言模型(mPLMs)在預訓練期間會獲取有價值且可泛化的語言信息,並在特定任務的微調方面推動了技術發展。
到目前為止,現有的語言模型僅覆蓋了約2000種非洲語言中的31種。為改善這一侷限,我們開發了 SERENGETI,這是一套大規模多語言語言模型,涵蓋了517種非洲語言和語言變體。我們在20個數據集的八項自然語言理解任務上對我們的新模型進行了評估,並與覆蓋4 - 23種非洲語言的4個mPLMs進行了比較。
SERENGETI 在八項任務的11個數據集上表現優於其他模型,平均F1分數達到82.27。我們還對模型的錯誤進行了分析,這使我們能夠研究在零樣本設置下應用模型時,語言譜系和語言相似性的影響。我們將公開發布我們的模型以供研究使用。
💻 使用示例
基礎用法
以下是使用 Serengeti 預測掩碼標記的示例:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
model = AutoModelForMaskedLM.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
from transformers import pipeline
classifier = pipeline("fill-mask", model=model, tokenizer=tokenizer)
classifier("ẹ jọwọ , ẹ <mask> mi")
[{'score': 0.07887924462556839,
'token': 8418,
'token_str': 'ọmọ',
'sequence': 'ẹ jọwọ, ẹ ọmọ mi'},
{'score': 0.04658124968409538,
'token': 156595,
'token_str': 'fẹ́ràn',
'sequence': 'ẹ jọwọ, ẹ fẹ́ràn mi'},
{'score': 0.029315846040844917,
'token': 204050,
'token_str': 'gbàgbé',
'sequence': 'ẹ jọwọ, ẹ gbàgbé mi'},
{'score': 0.02790883742272854,
'token': 10730,
'token_str': 'kọ',
'sequence': 'ẹ jọwọ, ẹ kọ mi'},
{'score': 0.022904086858034134,
'token': 115382,
'token_str': 'bẹ̀rù',
'sequence': 'ẹ jọwọ, ẹ bẹ̀rù mi'}]
更多詳細信息請閱讀此筆記本 
📚 詳細文檔
倫理考量
Serengeti在開發技術時考慮了非洲人民的需求,與以非洲為中心的自然語言處理理念相一致。我們相信Serengeti不僅對支持的語言使用者有用,也對非洲語言的研究人員(如人類學家和語言學家)有幫助。以下我們討論了Serengeti的一些用例,並提出了一些廣泛的影響:
- Serengeti旨在解決世界上約90%的語言缺乏技術支持的問題,這種缺乏自動對這些語言的母語使用者造成了歧視。更確切地說,它通過聚焦非洲來解決這個問題。據我們所知,Serengeti是第一個為非洲語言和語言變體開發的大規模多語言預訓練語言模型。一個掌握517種非洲語言的模型,是迄今為止非洲自然語言處理領域最大的模型。
- Serengeti使非洲社區能夠以非洲本土語言更好地獲取重要信息。這對可能不精通其他語言的人特別有益,有可能在全球範圍內連接更多的人。
- Serengeti為許多非洲語言的保護提供了機會。據我們所知,Serengeti包含了迄今為止尚未用於任何自然語言處理任務的語言。我們相信它可以鼓勵這些語言在多個領域的持續使用,並推動未來針對這些語言的語言技術發展。
- 為了減輕歧視和偏見,我們對數據集進行了手動篩選。南非荷蘭語、約魯巴語、伊博語、豪薩語、盧幹達語、盧旺達語、奇切瓦語、紹納語、索馬里語、斯瓦希里語、科薩語、本巴語和祖魯語的母語使用者也手動評估了部分數據,以確保其質量。為這項工作收集的數據來自不同領域,以進一步確保更好地反映母語使用者的語言使用情況。
- 雖然語言模型對廣泛的應用很有用,但它們也可能被濫用。Serengeti是使用公開可用的數據集開發的,這些數據集可能存在偏差。儘管我們努力進行分析和診斷案例研究,以探究我們模型的性能,但我們的調查絕不是全面的,也不能保證數據中沒有偏差。特別是,我們無法接觸到大多數所覆蓋語言的母語使用者,這阻礙了我們對每種(或至少大多數)語言的樣本進行研究的能力。
支持的語言
請參考 suported-languages
引用
如果您在科學出版物中使用預訓練模型(Serengeti),或者您發現本倉庫中的資源有用,請按以下方式引用我們的論文(待更新):
@inproceedings{adebara-etal-2023-serengeti,
title = "{SERENGETI}: Massively Multilingual Language Models for {A}frica",
author = "Adebara, Ife and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad and
Alcoba Inciarte, Alcides",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings-acl.97",
doi = "10.18653/v1/2023.findings-acl.97",
pages = "1498--1537",
}
致謝
我們衷心感謝加拿大研究主席(CRC)、加拿大自然科學與工程研究委員會(NSERC;RGPIN - 2018 - 04267)、加拿大社會科學與人文研究委員會(SSHRC;435 - 2018 - 0576;895 - 2020 - 1004;895 - 2021 - 1008)、加拿大創新基金會(CFI;37771)、加拿大數字研究聯盟、UBC ARC - Sockeye、高級微設備公司(AMD)和谷歌的支持。本材料中表達的任何意見、結論或建議均為作者的觀點,不一定反映CRC、NSERC、SSHRC、CFI、聯盟、AMD、谷歌或UBC ARC - Sockeye的觀點。
模型信息
屬性 |
詳情 |
模型類型 |
掩碼語言模型 |
訓練數據 |
未提及具體訓練數據,使用公開可用數據集 |
重要提示
⚠️ 重要提示
Serengeti是使用公開可用的數據集開發的,這些數據集可能存在偏差。儘管我們努力進行分析和診斷案例研究,以探究我們模型的性能,但我們的調查絕不是全面的,也不能保證數據中沒有偏差。特別是,我們無法接觸到大多數所覆蓋語言的母語使用者,這阻礙了我們對每種(或至少大多數)語言的樣本進行研究的能力。
💡 使用建議
若使用Serengeti模型進行研究或開發,建議關注模型可能存在的偏差問題,並結合實際需求對模型進行評估和調整。