🚀 AfroLM: 23のアフリカ言語向けの自己能動学習ベースの多言語事前学習言語モデル
AfroLMは、23のアフリカ言語に対応した自己能動学習ベースの多言語事前学習言語モデルです。このモデルは、自然言語処理の分野において高い性能を発揮し、様々なタスクでの応用が期待されます。
🚀 クイックスタート
このリポジトリには、論文「AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages」のモデルが含まれています。この論文は、2022年のEMNLPにおけるThird Simple and Efficient Natural Language Processingで発表されます。
✨ 主な機能
自己能動学習フレームワーク

カバーする言語
AfroLMは、23のアフリカ言語で最初から事前学習されています。具体的な言語は以下の通りです。
アムハラ語、アファン・オロモ語、バンバラ語、ゴマラ語、エウェ語、フォン語、ハウサ語、イボ語、キニヤルワンダ語、リンガラ語、ルガンダ語、ロ語、モーレ語、チェワ語、ナイジャ語、ショナ語、スワヒリ語、セツワナ語、ツイ語、ウォロフ語、コーサ語、ヨルバ語、ズールー語
評価結果
AfroLMは、MasakhaNER1.0(10のアフリカ言語)とMasakhaNER2.0(21のアフリカ言語)のデータセットで評価されました。テキスト分類と感情分析のタスクで、AfriBERTa、mBERT、XLMR-baseを上回り、AfroXLMRとも非常に競争力があります。また、事前学習に使用したデータセットが競合モデルの14倍以上小さいため、データ効率が非常に高いです。
モデル |
MasakhaNER |
MasakhaNER2.0* |
テキスト分類 (ヨルバ語/ハウサ語) |
感情分析 (YOSM) |
OOD感情分析 (Twitter -> YOSM) |
AfroLM-Large |
80.13 |
83.26 |
82.90/91.00 |
85.40 |
68.70 |
AfriBERTa |
79.10 |
81.31 |
83.22/90.86 |
82.70 |
65.90 |
mBERT |
71.55 |
80.68 |
--- |
--- |
--- |
XLMR-base |
79.16 |
83.09 |
--- |
--- |
--- |
AfroXLMR-base |
81.90 |
84.55 |
--- |
--- |
--- |
- (*) 評価は、データセットの追加の11の言語で行われました。
- 太字の数字は、最も小さい事前学習データを使用したモデルの性能を表しています。
事前学習モデルとデータセット
💻 使用例
基本的な使用法
from transformers import XLMRobertaModel, XLMRobertaTokenizer
model = XLMRobertaModel.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer = XLMRobertaTokenizer.from_pretrained("bonadossou/afrolm_active_learning")
tokenizer.model_max_length = 256
Autotokenizer
クラスではトークナイザーを正常に読み込めないため、XLMRobertaTokenizer
クラスを直接使用することをおすすめします。タスクに応じて、適切なモデルモードを読み込んでください。詳細はXLMRobertaドキュメントを参照してください。
📦 インストール
結果の再現: 学習と評価
- ネットワークを学習するには、
python active_learning.py
を実行します。bash
スクリプトでラップすることもできます。
- 評価については以下の通りです。
- NER分類:
bash ner_experiments.sh
- テキスト分類と感情分析:
bash text_classification_all.sh
📚 ドキュメント
引用
@inproceedings{dossou-etal-2022-afrolm,
title = "{A}fro{LM}: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 {A}frican Languages",
author = "Dossou, Bonaventure F. P. and
Tonja, Atnafu Lambebo and
Yousuf, Oreen and
Osei, Salomey and
Oppong, Abigail and
Shode, Iyanuoluwa and
Awoyomi, Oluwabusayo Olufunke and
Emezue, Chris",
booktitle = "Proceedings of The Third Workshop on Simple and Efficient Natural Language Processing (SustaiNLP)",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates (Hybrid)",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.sustainlp-1.11",
pages = "52--64"}
公式の引用情報はできるだけ早く共有します。引き続きご注目ください。もしこの研究が気に入ったら、スターをつけてください。
問い合わせ
質問がある場合は、Issueを作成してください。できるだけ早く対応します。
📄 ライセンス
プロパティ |
詳細 |
注釈作成者 |
クラウドソーシング |
言語 |
amh, orm, lin, hau, ibo, kin, lug, luo, pcm, swa, wol, yor, bam, bbj, ewe, fon, mos, nya, sna, tsn, twi, xho, zul |
言語作成者 |
クラウドソーシング |
多言語性 |
単言語 |
データセット名 |
afrolm-dataset |
サイズカテゴリ |
1M < n < 10M |
ソースデータセット |
オリジナル |
タグ |
afrolm, 能動学習, 言語モデリング, 研究論文, 自然言語処理, 自己能動学習 |
タスクカテゴリ |
マスク埋め |
タスクID |
マスク付き言語モデリング |