🚀 AfroLM:面向23种非洲语言的基于自主动学习的多语言预训练语言模型
AfroLM是一个基于自主动学习的多语言预训练语言模型,专门针对23种非洲语言进行设计。它在多种自然语言处理任务中展现出了卓越的性能,且数据效率极高。
🚀 快速开始
本仓库包含了我们论文AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages
中的模型,该论文将发表于2022年EMNLP会议的第三届简单高效自然语言处理研讨会上。
✨ 主要特性
自主动学习框架

覆盖的语言
AfroLM从零开始在23种非洲语言上进行了预训练,这些语言包括:阿姆哈拉语、阿法尔奥罗莫语、班巴拉语、戈马拉语、埃维语、丰语、豪萨语、伊博语、卢旺达语、林加拉语、卢干达语、卢奥语、莫雷语、奇瓦语、尼日利亚皮钦语、绍纳语、斯瓦希里语、茨瓦纳语、契维语、沃洛夫语、科萨语、约鲁巴语和祖鲁语。
评估结果
AfroLM在MasakhaNER1.0(10种非洲语言)和MasakhaNER2.0(21种非洲语言)数据集上进行了评估,涵盖文本分类和情感分析任务。AfroLM的表现优于AfriBERTa、mBERT和XLMR-base,并且与AfroXLMR具有很强的竞争力。此外,AfroLM的数据效率非常高,因为它是在比竞争对手小14倍以上的数据集上进行预训练的。以下是各种模型在不同数据集上的平均F1分数表现。如需更多语言级别的性能,请查阅我们的论文。
模型 |
MasakhaNER |
MasakhaNER2.0* |
文本分类(约鲁巴语/豪萨语) |
情感分析(YOSM) |
分布外情感分析(Twitter -> YOSM) |
AfroLM-Large |
80.13 |
83.26 |
82.90/91.00 |
85.40 |
68.70 |
AfriBERTa |
79.10 |
81.31 |
83.22/90.86 |
82.70 |
65.90 |
mBERT |
71.55 |
80.68 |
--- |
--- |
--- |
XLMR-base |
79.16 |
83.09 |
--- |
--- |
--- |
AfroXLMR-base |
81.90 |
84.55 |
--- |
--- |
--- |
- (*) 评估是在数据集的11种额外语言上进行的。
- 粗体数字表示在最小预训练数据上的模型性能。
📦 安装指南
预训练模型和数据集
💻 使用示例
基础用法
from transformers import XLMRobertaModel, XLMRobertaTokenizer
model = XLMRobertaModel.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer = XLMRobertaTokenizer.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer.model_max_length = 256
Autotokenizer
类无法成功加载我们的分词器。因此,我们建议直接使用XLMRobertaTokenizer
类。根据你的任务,你将加载相应的模型模式。请阅读XLMRoberta文档
高级用法
复现结果:训练和评估
- 训练网络:运行
python active_learning.py
。你也可以将其封装在一个bash
脚本中。
- 评估:
- 命名实体识别(NER)分类:
bash ner_experiments.sh
- 文本分类和情感分析:
bash text_classification_all.sh
📚 详细文档
数据集信息
属性 |
详情 |
注释创建者 |
众包 |
语言 |
阿姆哈拉语(amh)、阿法尔奥罗莫语(orm)、林加拉语(lin)、豪萨语(hau)、伊博语(ibo)、基尼亚卢旺达语(kin)、卢干达语(lug)、卢奥语(luo)、尼日利亚皮钦语(pcm)、斯瓦希里语(swa)、沃洛夫语(wol)、约鲁巴语(yor)、班巴拉语(bam)、戈马拉语(bbj)、埃维语(ewe)、丰语(fon)、莫雷语(mos)、奇瓦语(nya)、绍纳语(sna)、茨瓦纳语(tsn)、契维语(twi)、科萨语(xho)、祖鲁语(zul) |
语言创建者 |
众包 |
许可证 |
CC BY 4.0 |
多语言性 |
单语 |
数据集名称 |
afrolm - dataset |
规模类别 |
100万 < n < 1000万 |
源数据集 |
原始数据集 |
标签 |
afrolm、主动学习、语言建模、研究论文、自然语言处理、自主动学习 |
任务类别 |
填空 |
任务ID |
掩码语言建模 |
引用信息
@inproceedings{dossou-etal-2022-afrolm,
title = "{A}fro{LM}: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 {A}frican Languages",
author = "Dossou, Bonaventure F. P. and
Tonja, Atnafu Lambebo and
Yousuf, Oreen and
Osei, Salomey and
Oppong, Abigail and
Shode, Iyanuoluwa and
Awoyomi, Oluwabusayo Olufunke and
Emezue, Chris",
booktitle = "Proceedings of The Third Workshop on Simple and Efficient Natural Language Processing (SustaiNLP)",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates (Hybrid)",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.sustainlp-1.11",
pages = "52--64"
}
我们将尽快分享官方会议引用信息。请持续关注,如果您喜欢我们的工作,请给我们点个星。
联系我们
如果您有任何问题,请创建一个issue,我们将尽快回复。
📄 许可证
本项目采用CC BY 4.0许可证。