🚀 AfroLM:面向23種非洲語言的基於自主動學習的多語言預訓練語言模型
AfroLM是一個基於自主動學習的多語言預訓練語言模型,專門針對23種非洲語言進行設計。它在多種自然語言處理任務中展現出了卓越的性能,且數據效率極高。
🚀 快速開始
本倉庫包含了我們論文AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages
中的模型,該論文將發表於2022年EMNLP會議的第三屆簡單高效自然語言處理研討會上。
✨ 主要特性
自主動學習框架

覆蓋的語言
AfroLM從零開始在23種非洲語言上進行了預訓練,這些語言包括:阿姆哈拉語、阿法爾奧羅莫語、班巴拉語、戈馬拉語、埃維語、豐語、豪薩語、伊博語、盧旺達語、林加拉語、盧幹達語、盧奧語、莫雷語、奇瓦語、尼日利亞皮欽語、紹納語、斯瓦希里語、茨瓦納語、契維語、沃洛夫語、科薩語、約魯巴語和祖魯語。
評估結果
AfroLM在MasakhaNER1.0(10種非洲語言)和MasakhaNER2.0(21種非洲語言)數據集上進行了評估,涵蓋文本分類和情感分析任務。AfroLM的表現優於AfriBERTa、mBERT和XLMR-base,並且與AfroXLMR具有很強的競爭力。此外,AfroLM的數據效率非常高,因為它是在比競爭對手小14倍以上的數據集上進行預訓練的。以下是各種模型在不同數據集上的平均F1分數表現。如需更多語言級別的性能,請查閱我們的論文。
模型 |
MasakhaNER |
MasakhaNER2.0* |
文本分類(約魯巴語/豪薩語) |
情感分析(YOSM) |
分佈外情感分析(Twitter -> YOSM) |
AfroLM-Large |
80.13 |
83.26 |
82.90/91.00 |
85.40 |
68.70 |
AfriBERTa |
79.10 |
81.31 |
83.22/90.86 |
82.70 |
65.90 |
mBERT |
71.55 |
80.68 |
--- |
--- |
--- |
XLMR-base |
79.16 |
83.09 |
--- |
--- |
--- |
AfroXLMR-base |
81.90 |
84.55 |
--- |
--- |
--- |
- (*) 評估是在數據集的11種額外語言上進行的。
- 粗體數字表示在最小預訓練數據上的模型性能。
📦 安裝指南
預訓練模型和數據集
💻 使用示例
基礎用法
from transformers import XLMRobertaModel, XLMRobertaTokenizer
model = XLMRobertaModel.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer = XLMRobertaTokenizer.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer.model_max_length = 256
Autotokenizer
類無法成功加載我們的分詞器。因此,我們建議直接使用XLMRobertaTokenizer
類。根據你的任務,你將加載相應的模型模式。請閱讀XLMRoberta文檔
高級用法
復現結果:訓練和評估
- 訓練網絡:運行
python active_learning.py
。你也可以將其封裝在一個bash
腳本中。
- 評估:
- 命名實體識別(NER)分類:
bash ner_experiments.sh
- 文本分類和情感分析:
bash text_classification_all.sh
📚 詳細文檔
數據集信息
屬性 |
詳情 |
註釋創建者 |
眾包 |
語言 |
阿姆哈拉語(amh)、阿法爾奧羅莫語(orm)、林加拉語(lin)、豪薩語(hau)、伊博語(ibo)、基尼亞盧旺達語(kin)、盧幹達語(lug)、盧奧語(luo)、尼日利亞皮欽語(pcm)、斯瓦希里語(swa)、沃洛夫語(wol)、約魯巴語(yor)、班巴拉語(bam)、戈馬拉語(bbj)、埃維語(ewe)、豐語(fon)、莫雷語(mos)、奇瓦語(nya)、紹納語(sna)、茨瓦納語(tsn)、契維語(twi)、科薩語(xho)、祖魯語(zul) |
語言創建者 |
眾包 |
許可證 |
CC BY 4.0 |
多語言性 |
單語 |
數據集名稱 |
afrolm - dataset |
規模類別 |
100萬 < n < 1000萬 |
源數據集 |
原始數據集 |
標籤 |
afrolm、主動學習、語言建模、研究論文、自然語言處理、自主動學習 |
任務類別 |
填空 |
任務ID |
掩碼語言建模 |
引用信息
@inproceedings{dossou-etal-2022-afrolm,
title = "{A}fro{LM}: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 {A}frican Languages",
author = "Dossou, Bonaventure F. P. and
Tonja, Atnafu Lambebo and
Yousuf, Oreen and
Osei, Salomey and
Oppong, Abigail and
Shode, Iyanuoluwa and
Awoyomi, Oluwabusayo Olufunke and
Emezue, Chris",
booktitle = "Proceedings of The Third Workshop on Simple and Efficient Natural Language Processing (SustaiNLP)",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates (Hybrid)",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.sustainlp-1.11",
pages = "52--64"
}
我們將盡快分享官方會議引用信息。請持續關注,如果您喜歡我們的工作,請給我們點個星。
聯繫我們
如果您有任何問題,請創建一個issue,我們將盡快回復。
📄 許可證
本項目採用CC BY 4.0許可證。