🚀 SERENGETI:覆盖517种非洲语言的多语言模型
SERENGETI是一套大规模多语言语言模型,覆盖了517种非洲语言和语言变体。该模型改善了现有语言模型对非洲语言覆盖不足的问题,在多个自然语言理解任务中表现出色,还能助力非洲语言的信息获取、语言保护等。
🚀 快速开始
使用Serengeti模型预测掩码标记
以下是使用 Serengeti 预测掩码标记的示例:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/serengeti-E250", use_auth_token="XXX")
model = AutoModelForMaskedLM.from_pretrained("UBC-NLP/serengeti-E250", use_auth_token="XXX")
from transformers import pipeline
classifier = pipeline("fill-mask", model=model, tokenizer=tokenizer)
classifier("ẹ jọwọ , ẹ <mask> mi")
[{'score': 0.07887924462556839,
'token': 8418,
'token_str': 'ọmọ',
'sequence': 'ẹ jọwọ, ẹ ọmọ mi'},
{'score': 0.04658124968409538,
'token': 156595,
'token_str': 'fẹ́ràn',
'sequence': 'ẹ jọwọ, ẹ fẹ́ràn mi'},
{'score': 0.029315846040844917,
'token': 204050,
'token_str': 'gbàgbé',
'sequence': 'ẹ jọwọ, ẹ gbàgbé mi'},
{'score': 0.02790883742272854,
'token': 10730,
'token_str': 'kọ',
'sequence': 'ẹ jọwọ, ẹ kọ mi'},
{'score': 0.022904086858034134,
'token': 115382,
'token_str': 'bẹ̀rù',
'sequence': 'ẹ jọwọ, ẹ bẹ̀rù mi'}]
更多详细信息请阅读此笔记本 
✨ 主要特性
- 多语言覆盖:覆盖517种非洲语言和语言变体,改善了现有语言模型对非洲语言覆盖不足的问题。
- 性能出色:在八个自然语言理解任务的20个数据集上进行评估,在11个数据集上优于其他模型,平均F1分数达到82.27。
- 伦理考量:开发过程中考虑非洲人民的需求,采用手动整理数据集等方式减轻歧视和偏见。
📚 详细文档
模型背景
多语言预训练语言模型(mPLMs)在预训练过程中获得有价值的、可泛化的语言信息,并在特定任务的微调中推动了技术发展。到目前为止,现有的语言模型仅覆盖了约2000种非洲语言中的31种。SERENGETI的开发改善了这一限制。
模型评估
研究人员在20个数据集的八个自然语言理解任务上评估了SERENGETI模型,并与覆盖4 - 23种非洲语言的4个mPLMs进行了比较。SERENGETI在八个任务的11个数据集上优于其他模型,平均F1分数达到82.27。
错误分析
研究人员还对模型的错误进行了分析,以便研究在零样本设置下应用模型时语言谱系和语言相似性的影响。
模型发布
研究人员将公开发布模型以供研究使用。有关模型的更多详细信息可在 (论文) 中找到。
🔧 技术细节
支持语言
属性 |
详情 |
支持语言 |
aa、af、am、ak、bm、ff、fon、ha、ig、ki、lg、ln、mg、nr、om、rn、run、sw、sn、tn、ti、ve、wo、xh、yo、zu等517种非洲语言和语言变体 |
数据处理
为了减轻歧视和偏见,研究人员采用手动整理数据集的方式。南非荷兰语、约鲁巴语、伊博语、豪萨语、卢干达语、基尼亚卢旺达语、奇切瓦语、绍纳语、索马里语、斯瓦希里语、科萨语、本巴语和祖鲁语的母语使用者也手动评估了部分数据以确保其质量。为这项工作收集的数据来自各个领域,以进一步确保更好地反映母语使用者的语言使用情况。
📄 许可证
文档未提及相关信息。
🔍 支持语言
请参考 suported-languages
📖 引用
如果您在科学出版物中使用预训练模型(Serengeti),或者认为本仓库中的资源有用,请按以下方式引用我们的论文(待更新):
@inproceedings{adebara-etal-2023-serengeti,
title = "{SERENGETI}: Massively Multilingual Language Models for {A}frica",
author = "Adebara, Ife and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad and
Alcoba Inciarte, Alcides",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings-acl.97",
doi = "10.18653/v1/2023.findings-acl.97",
pages = "1498--1537",
}
🙏 致谢
我们衷心感谢加拿大研究主席(CRC)、加拿大自然科学与工程研究委员会(NSERC;RGPIN - 2018 - 04267)、加拿大社会科学与人文研究委员会(SSHRC;435 - 2018 - 0576;895 - 2020 - 1004;895 - 2021 - 1008)、加拿大创新基金会(CFI;37771)、加拿大数字研究联盟、UBC ARC - Sockeye、Advanced Micro Devices, Inc.(AMD)和谷歌的支持。本材料中表达的任何观点、结论或建议均为作者本人的观点,不一定反映CRC、NSERC、SSHRC、CFI、联盟、AMD、谷歌或UBC ARC - Sockeye的观点。