🚀 MuRIL:印度语言的多语言表征模型
MuRIL是一个在17种印度语言及其音译版本上进行预训练的BERT模型。在本仓库中,我们发布了预训练模型(保留了MLM层,可进行掩码词预测)。此外,我们还在 TFHub 上发布了带有额外预处理模块的编码器,该模块可将原始文本处理为编码器所需的输入格式。你可以在这篇 论文 中了解关于MuRIL的更多细节。
🚀 快速开始
你可以直接从本仓库获取预训练模型,也可以从 TFHub 获取带有预处理模块的编码器。
✨ 主要特性
- 多语言支持:在17种印度语言及其音译版本上进行预训练。
- 可灵活使用:发布了保留MLM层的预训练模型,支持掩码词预测;同时也提供了带有预处理模块的编码器。
📚 详细文档
概述
该模型采用BERT基础架构 [1],使用维基百科 [2]、Common Crawl [3]、PMINDIA [4] 和Dakshina [5] 语料库,针对17种 [6] 印度语言从头开始进行预训练。
我们采用了类似于多语言BERT的训练范式,并进行了以下修改:
- 在训练中加入了翻译和音译的段落对。
- 上采样时采用0.3的指数值而非0.7,这已被证明可以提高低资源语言的性能 [7]。
更多细节请参阅训练部分。
训练
MuRIL模型在单语段落和并行段落上进行预训练,详情如下:
- 单语数据:我们使用了来自维基百科和Common Crawl的17种印度语言的公开可用语料库。
- 并行数据:我们有两种类型的并行数据:
- 翻译数据:我们使用Google NMT管道对上述单语语料库进行翻译。将翻译后的段落对作为输入。我们还使用了公开可用的PMINDIA语料库。
- 音译数据:我们使用IndicTrans [8] 库对维基百科进行音译。将音译后的段落对作为输入。我们还使用了公开可用的Dakshina数据集。
我们使用0.3的指数值来计算低资源语言上采样的重复乘数,并相应地设置重复因子。注意,我们仅对维基百科进行音译对处理。
该模型使用自监督掩码语言建模任务进行训练。我们进行全词掩码,最多进行80次预测。模型训练了1000K步,批次大小为4096,最大序列长度为512。
可训练参数
模块中的所有参数均可训练,建议对所有参数进行微调。
使用与限制
该模型旨在用于印度语言的各种下游NLP任务。该模型也在音译数据上进行了训练,这在印度语境中是常见现象。预计该模型在预训练所用语言(即17种印度语言)之外的语言上表现不佳。
评估
我们提供了该模型在一组下游任务上的微调结果。
我们从XTREME基准测试中选择这些任务,并在印度语言测试集上进行评估。
我们还对测试集进行音译并进行评估。
除TyDiQA外,我们使用与 [9] 相同的微调设置,在TyDiQA任务中,我们使用额外的SQuAD v1.1英语训练数据,与 [10] 类似。
对于Tatoeba,我们不对模型进行微调,而是使用最后一层的池化输出作为句子嵌入。
所有结果均在零样本设置下计算,英语作为高资源训练集语言。
任务 |
指标 |
ml |
ta |
te |
en |
bn |
hi |
mr |
ur |
平均 |
PANX |
F1 |
75.74 |
71.86 |
64.99 |
84.43 |
85.97 |
78.09 |
74.63 |
85.07 |
77.60 |
UDPOS |
F1 |
|
|
|
95.55 |
64.47 |
82.95 |
62.57 |
85.63 |
58.93 |
XNLI |
准确率 |
|
|
|
83.85 |
70.66 |
|
|
67.70 |
74.07 |
Tatoeba |
准确率 |
26.35 |
36.81 |
17.52 |
|
31.50 |
26.60 |
|
17.10 |
25.15 |
XQUAD |
F1/EM |
|
|
|
84.31/72.94 |
|
73.93/58.32 |
|
|
79.12/65.63 |
MLQA |
F1/EM |
|
|
|
80.28/67.37 |
|
67.34/50.22 |
|
|
73.81/58.80 |
TyDiQA |
F1/EM |
|
|
|
74.10/64.55 |
78.03/66.37 |
|
73.95/46.94 |
|
75.36/59.28 |
以下是上述测试集音译版本的结果:
任务 |
指标 |
ml_tr |
ta_tr |
te_tr |
bn_tr |
hi_tr |
mr_tr |
ur_tr |
平均 |
PANX |
F1 |
63.39 |
7.00 |
53.62 |
72.94 |
69.75 |
68.77 |
68.41 |
57.70 |
UDPOS |
F1 |
|
|
|
|
63.09 |
67.19 |
58.40 |
65.30 |
XNLI |
准确率 |
|
|
|
|
68.24 |
|
61.16 |
|
Tatoeba |
准确率 |
10.33 |
11.07 |
11.54 |
8.10 |
14.90 |
7.20 |
13.70 |
10.98 |
参考文献
[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Wikipedia
[3] [Common Crawl](http://commoncrawl.org/the - data/)
[4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html)
[5] [Dakshina](https://github.com/google - research - datasets/dakshina)
[6] 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。
[7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019).
[8] [IndicTrans](https://github.com/libindic/indic - trans)
[9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080.
[10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.
引用
如果你在应用中发现MuRIL很有用,请引用以下论文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
联系我们
如有任何疑问或反馈,请发送邮件至muril - contact@google.com。