🚀 MuRIL Large
MuRIL Largeは、BERTアーキテクチャに基づく大規模な事前学習モデルで、インドの言語向けに設計されています。このモデルは17種類のインドの言語とその音訳バージョンで事前学習されており、インドの言語に関する自然言語処理タスクに強力なサポートを提供します。
🚀 クイックスタート
MuRIL Largeモデルは、様々なインドの言語の下流のNLPタスクに使用できます。ドキュメントに具体的な使用コード例が提供されていないため、モデルの入出力要件に基づき、自身のタスクシナリオに合わせて使用することができます。
✨ 主な機能
- 多言語対応:このモデルはBERTの大規模アーキテクチャを使用し、17種類のインドの言語とその音訳バージョンに対して最初から事前学習されており、様々なインドの言語の処理をサポートしています。
- 学習パラダイムの最適化:多言語BERTに似た学習パラダイムを採用し、いくつかの改良が加えられています。学習において翻訳と音訳の断片ペアを追加し、サンプリング時に0.3の指数値(0.7ではなく)を使用して、低リソース言語の性能を向上させています。
🔧 技術詳細
学習データ
- 単一言語データ:ウィキペディアとCommon Crawlからの17種類のインドの言語の公開されているコーパスを使用しています。
- 平行データ:
- 翻訳データ:Google NMTパイプラインを通じて上記の単一言語コーパスの翻訳を取得し、公開されているPMINDIAコーパスも使用しています。
- 音訳データ:IndicTransライブラリを使用してウィキペディアの音訳を取得し、公開されているDakshinaデータセットも使用しています。
学習パラメータ設定
- アップサンプリング指数:低リソース言語の繰り返し乗数を計算するために0.3の指数値を使用してアップサンプリングを行い、繰り返し因子を適切に設定しています。
- 学習タスク:自己教師付きのマスク言語モデリングタスクを使用して学習されており、全単語マスクを採用し、最大予測数は80です。
- 学習ステップ数とバッチサイズ:モデルは1500Kステップ学習され、バッチサイズは8192、最大シーケンス長は512です。
学習可能なパラメータ
モジュール内のすべてのパラメータは学習可能であり、すべてのパラメータを微調整することをおすすめします。
📦 使用と制限
用途
このモデルは、インドの言語に関する様々な下流のNLPタスクに使用することを目的としており、音訳データで学習されているため、インドの文脈で一般的な音訳現象に適しています。
制限
このモデルは17種類のインドの言語でのみ学習されており、他の言語での性能は低い可能性があります。
📊 評価結果
下流タスクの微調整結果
タスク |
指標 |
言語 |
XLM - R (Large) |
MuRIL (Large) |
PANX |
F1 |
bn, en, hi, ml, mr, ta, te, ur |
平均68.0 |
平均77.7 |
UDPOS |
F1 |
en, hi, mr, ta, te, ur |
平均79.2 |
平均77.3 |
XNLI |
正解率 |
en, hi, ur |
平均78.7 |
平均78.6 |
XQUAD |
F1/EM |
en, hi |
平均81.6/67.7 |
平均83.3/70.1 |
MLQA |
F1/EM |
en, hi |
平均77.1/61.9 |
平均78.3/62.9 |
TyDiQA |
F1/EM |
en, bn, te |
平均68.5/49.4 |
平均71.5/56.6 |
微調整のハイパーパラメータ
タスク |
バッチサイズ |
学習率 |
エポック数 |
ウォームアップ割合 |
PANX |
32 |
2e - 5 |
10 |
0.1 |
UDPOS |
64 |
5e - 6 |
10 |
0.1 |
XNLI |
128 |
2e - 5 |
5 |
0.1 |
XQuAD |
32 |
3e - 5 |
2 |
0.1 |
MLQA |
32 |
3e - 5 |
2 |
0.1 |
TyDiQA |
32 |
3e - 5 |
3 |
0.1 |
📖 参考文献
[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Wikipedia
[3] [Common Crawl](http://commoncrawl.org/the - data/)
[4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html)
[5] [Dakshina](https://github.com/google - research - datasets/dakshina)
[6] Assamese (as), Bengali (bn), English (en), Gujarati (gu), Hindi (hi), Kannada (kn), Kashmiri (ks), Malayalam (ml), Marathi (mr), Nepali (ne), Oriya (or), Punjabi (pa), Sanskrit (sa), Sindhi (sd), Tamil (ta), Telugu (te) and Urdu (ur).
[7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019).
[8] [IndicTrans](https://github.com/libindic/indic - trans)
[9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080.
[10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.
📄 引用
もしあなたのアプリケーションでMuRILが役立つことがわかった場合、以下の論文を引用してください:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📞 お問い合わせ
何か質問やフィードバックがある場合は、muril - contact@google.comまでメールを送信してください。