🚀 セレンゲティ
多言語事前学習言語モデル(mPLMs)は、事前学習中に貴重で汎用性の高い言語情報を獲得し、タスク固有の微調整における最先端技術を進歩させました。現在まで、既存の言語モデルでカバーされているアフリカの言語は、2000 種類のうち約 31 種類のみです。この制限を改善するために、517 種類のアフリカの言語と言語変種をカバーする大規模多言語言語モデルのセットである セレンゲティ を開発しました。我々は、20 のデータセットにまたがる 8 つの自然言語理解タスクで新しいモデルを評価し、4 - 23 のアフリカの言語をカバーする 4 つの mPLMs と比較しました。
セレンゲティ は、8 つのタスクにまたがる 11 のデータセットで他のモデルを上回り、平均 F1 スコア 82.27 を達成しました。また、モデルからのエラー分析も行い、ゼロショット設定でモデルを適用する際の言語の系譜と言語的類似性の影響を調査することができました。我々は、研究用にモデルを公開する予定です。
🚀 クイックスタート
多言語事前学習言語モデル(mPLMs)は、事前学習中に貴重で汎用性の高い言語情報を獲得し、タスク固有の微調整における最先端技術を進歩させました。
これまで、既存の言語モデルでカバーされているアフリカの言語は、2000 種類のうち約 31 種類のみです。我々は、この制限を改善するために、517 種類のアフリカの言語と言語変種をカバーする大規模多言語言語モデルのセットである セレンゲティ を開発しました。我々は、20 のデータセットにまたがる 8 つの自然言語理解タスクで新しいモデルを評価し、4 - 23 のアフリカの言語をカバーする 4 つの mPLMs と比較しました。
セレンゲティ は、8 つのタスクにまたがる 11 のデータセットで他のモデルを上回り、平均 F1 スコア 82.27 を達成しました。また、モデルからのエラー分析も行い、ゼロショット設定でモデルを適用する際の言語の系譜と言語的類似性の影響を調査することができました。我々は、研究用にモデルを公開する予定です。
💻 使用例
基本的な使用法
以下は、セレンゲティ を使用してマスクされたトークンを予測する例です。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
model = AutoModelForMaskedLM.from_pretrained("UBC-NLP/serengeti", use_auth_token="XXX")
from transformers import pipeline
classifier = pipeline("fill-mask", model=model, tokenizer=tokenizer)
classifier("ẹ jọwọ , ẹ <mask> mi")
[{'score': 0.07887924462556839,
'token': 8418,
'token_str': 'ọmọ',
'sequence': 'ẹ jọwọ, ẹ ọmọ mi'},
{'score': 0.04658124968409538,
'token': 156595,
'token_str': 'fẹ́ràn',
'sequence': 'ẹ jọwọ, ẹ fẹ́ràn mi'},
{'score': 0.029315846040844917,
'token': 204050,
'token_str': 'gbàgbé',
'sequence': 'ẹ jọwọ, ẹ gbàgbé mi'},
{'score': 0.02790883742272854,
'token': 10730,
'token_str': 'kọ',
'sequence': 'ẹ jọwọ, ẹ kọ mi'},
{'score': 0.022904086858034134,
'token': 115382,
'token_str': 'bẹ̀rù',
'sequence': 'ẹ jọwọ, ẹ bẹ̀rù mi'}]
詳細については、このノートブックを読んでください 
📚 ドキュメント
倫理的な考慮
セレンゲティは、アフリカの人々のニーズを技術開発において考慮に入れるアフロセントリックな自然言語処理(NLP)に沿っています。我々は、セレンゲティがサポートされている言語の話者だけでなく、人類学者や言語学者などのアフリカの言語の研究者にも役立つと信じています。以下では、セレンゲティのいくつかの使用例を説明し、いくつかの広範な影響を提示します。
- セレンゲティは、世界の約 90% の言語で技術へのアクセスが不足している問題を解決することを目指しています。これは、自動的にそれらの言語の母語話者に対する差別につながります。より正確には、アフリカに焦点を当てることでこれを行います。私たちの知る限り、セレンゲティはアフリカの言語と言語変種のために開発された最初の大規模多言語事前学習言語モデルです。517 種類のアフリカの言語の知識を持つモデルは、アフリカの自然言語処理においてこれまでで最大のものです。
- セレンゲティは、アフリカのコミュニティがアフリカの固有の言語で重要な情報にアクセスすることを可能にします。これは、他の言語に流暢でない人々に特に有益です。これにより、世界中の人々をより多くつなぐ可能性があります。
- セレンゲティは、多くのアフリカの言語の言語保存の機会を提供します。私たちの知る限り、セレンゲティにはこれまで自然言語処理タスクに使用されたことのない言語が含まれています。私たちは、これがいくつかの分野でこれらの言語の継続的な使用を促進し、多くのこれらの言語の言語技術の将来の開発を促すことができると信じています。
- 差別やバイアスを軽減するために、データセットの手動選別を採用しています。アフリカーンス語、ヨルバ語、イボ語、ハウサ語、ルガンダ語、キニヤルワンダ語、チチェワ語、ショナ語、ソマリ語、スワヒリ語、コサ語、ベンバ語、ズールー語の母語話者も、データの一部を手動で評価し、その品質を確保しています。この研究で収集されたデータは、様々なドメインから取得され、母語話者の言語使用のより良い表現を確保しています。
- 言語モデルは幅広いアプリケーションに役立ちますが、誤用される可能性もあります。セレンゲティは、バイアスを含む可能性のある公開データセットを使用して開発されています。私たちは、モデルの性能を調査するために分析や診断的なケーススタディを行うよう努めていますが、私たちの調査は決して包括的ではなく、データにバイアスがないことを保証するものではありません。特に、カバーされているほとんどの言語の母語話者にアクセスできないため、各言語(または少なくとも大多数の言語)のサンプルを調査する能力が制限されています。
サポートされている言語
詳細については、サポートされている言語 を参照してください。
引用
科学的な出版物で事前学習モデル(セレンゲティ)を使用した場合、またはこのリポジトリのリソースが役に立った場合は、以下のように論文を引用してください(更新予定)。
@inproceedings{adebara-etal-2023-serengeti,
title = "{SERENGETI}: Massively Multilingual Language Models for {A}frica",
author = "Adebara, Ife and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad and
Alcoba Inciarte, Alcides",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings-acl.97",
doi = "10.18653/v1/2023.findings-acl.97",
pages = "1498--1537",
}
謝辞
カナダ研究主席(CRC)、カナダ自然科学・工学研究評議会(NSERC; RGPIN - 2018 - 04267)、カナダ社会科学・人文科学研究評議会(SSHRC; 435 - 2018 - 0576; 895 - 2020 - 1004; 895 - 2021 - 1008)、カナダイノベーション財団(CFI; 37771)、カナダデジタル研究アライアンス、UBC ARC - Sockeye、Advanced Micro Devices, Inc.(AMD)、および Google からの支援に感謝します。この資料に表されている意見、結論、または推奨事項は、著者のものであり、必ずしも CRC、NSERC、SSHRC、CFI、アライアンス、AMD、Google、または UBC ARC - Sockeye の見解を反映しているとは限りません。
情報一覧
属性 |
詳情 |
パイプラインタグ |
マスクトークン予測 |
言語 |
aa, af, am, ak, bm, ff, fon, ha, ig, ki, lg, ln, mg, nr, om, rn, run, sw, sn, tn, ti, ve, wo, xh, yo, zu |
タグ |
マスク言語モデル、arxiv:2212.10785 |
ウィジェット |
ẹ jọwọ , ẹ mi.、gbọ́ láìfọ̀rọ̀ gùn rárá. |