🚀 MuRIL Large
MuRIL Large是一个基于BERT架构的大型预训练模型,专为印度语言设计。它在17种印度语言及其音译版本上进行了预训练,能够为印度语言的自然语言处理任务提供强大的支持。
🚀 快速开始
MuRIL Large模型可用于多种印度语言的下游NLP任务。由于文档未提供具体使用代码示例,你可以根据模型的输入输出要求,结合自己的任务场景进行使用。
✨ 主要特性
- 多语言支持:该模型使用BERT大型架构,针对17种印度语言及其音译版本进行了从头开始的预训练,支持多种印度语言的处理。
- 训练范式优化:采用了类似于多语言BERT的训练范式,并进行了一些改进。包括在训练中加入翻译和音译片段对,以及在采样时使用0.3的指数值(而非0.7),以提高低资源语言的性能。
🔧 技术细节
训练数据
- 单语数据:使用了来自维基百科和Common Crawl的17种印度语言的公开可用语料库。
- 平行数据:
- 翻译数据:通过Google NMT管道获取上述单语语料库的翻译,并使用公开可用的PMINDIA语料库。
- 音译数据:使用IndicTrans库获取维基百科的音译,并使用公开可用的Dakshina数据集。
训练参数设置
- 上采样指数:使用0.3的指数值来计算低资源语言的重复乘数,以进行上采样,并相应地设置重复因子。
- 训练任务:使用自监督的掩码语言建模任务进行训练,采用全词掩码,最大预测数为80。
- 训练步数和批次大小:模型训练了1500K步,批次大小为8192,最大序列长度为512。
可训练参数
模块中的所有参数都是可训练的,建议对所有参数进行微调。
📦 使用与限制
用途
该模型旨在用于印度语言的各种下游NLP任务,并且在音译数据上进行了训练,适用于印度语境中常见的音译现象。
限制
该模型仅在17种印度语言上进行了训练,对于其他语言的性能可能不佳。
📊 评估结果
下游任务微调结果
任务 |
指标 |
语言 |
XLM - R (Large) |
MuRIL (Large) |
PANX |
F1 |
bn, en, hi, ml, mr, ta, te, ur |
68.0(平均) |
77.7(平均) |
UDPOS |
F1 |
en, hi, mr, ta, te, ur |
79.2(平均) |
77.3(平均) |
XNLI |
准确率 |
en, hi, ur |
78.7(平均) |
78.6(平均) |
XQUAD |
F1/EM |
en, hi |
81.6/67.7(平均) |
83.3/70.1(平均) |
MLQA |
F1/EM |
en, hi |
77.1/61.9(平均) |
78.3/62.9(平均) |
TyDiQA |
F1/EM |
en, bn, te |
68.5/49.4(平均) |
71.5/56.6(平均) |
微调超参数
任务 |
批次大小 |
学习率 |
轮数 |
热身比例 |
PANX |
32 |
2e - 5 |
10 |
0.1 |
UDPOS |
64 |
5e - 6 |
10 |
0.1 |
XNLI |
128 |
2e - 5 |
5 |
0.1 |
XQuAD |
32 |
3e - 5 |
2 |
0.1 |
MLQA |
32 |
3e - 5 |
2 |
0.1 |
TyDiQA |
32 |
3e - 5 |
3 |
0.1 |
📖 参考文献
[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Wikipedia
[3] [Common Crawl](http://commoncrawl.org/the - data/)
[4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html)
[5] [Dakshina](https://github.com/google - research - datasets/dakshina)
[6] Assamese (as), Bengali (bn), English (en), Gujarati (gu), Hindi (hi), Kannada (kn), Kashmiri (ks), Malayalam (ml), Marathi (mr), Nepali (ne), Oriya (or), Punjabi (pa), Sanskrit (sa), Sindhi (sd), Tamil (ta), Telugu (te) and Urdu (ur).
[7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019).
[8] [IndicTrans](https://github.com/libindic/indic - trans)
[9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080.
[10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.
📄 引用
如果你在应用中发现MuRIL很有用,请引用以下论文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📞 联系我们
如果有任何疑问或反馈,请发送邮件至muril - contact@google.com。