🚀 MuRIL:印度語言的多語言表徵模型
MuRIL是一個在17種印度語言及其音譯版本上進行預訓練的BERT模型。在本倉庫中,我們發佈了預訓練模型(保留了MLM層,可進行掩碼詞預測)。此外,我們還在 TFHub 上發佈了帶有額外預處理模塊的編碼器,該模塊可將原始文本處理為編碼器所需的輸入格式。你可以在這篇 論文 中瞭解關於MuRIL的更多細節。
🚀 快速開始
你可以直接從本倉庫獲取預訓練模型,也可以從 TFHub 獲取帶有預處理模塊的編碼器。
✨ 主要特性
- 多語言支持:在17種印度語言及其音譯版本上進行預訓練。
- 可靈活使用:發佈了保留MLM層的預訓練模型,支持掩碼詞預測;同時也提供了帶有預處理模塊的編碼器。
📚 詳細文檔
概述
該模型採用BERT基礎架構 [1],使用維基百科 [2]、Common Crawl [3]、PMINDIA [4] 和Dakshina [5] 語料庫,針對17種 [6] 印度語言從頭開始進行預訓練。
我們採用了類似於多語言BERT的訓練範式,並進行了以下修改:
- 在訓練中加入了翻譯和音譯的段落對。
- 上採樣時採用0.3的指數值而非0.7,這已被證明可以提高低資源語言的性能 [7]。
更多細節請參閱訓練部分。
訓練
MuRIL模型在單語段落和並行段落上進行預訓練,詳情如下:
- 單語數據:我們使用了來自維基百科和Common Crawl的17種印度語言的公開可用語料庫。
- 並行數據:我們有兩種類型的並行數據:
- 翻譯數據:我們使用Google NMT管道對上述單語語料庫進行翻譯。將翻譯後的段落對作為輸入。我們還使用了公開可用的PMINDIA語料庫。
- 音譯數據:我們使用IndicTrans [8] 庫對維基百科進行音譯。將音譯後的段落對作為輸入。我們還使用了公開可用的Dakshina數據集。
我們使用0.3的指數值來計算低資源語言上採樣的重複乘數,並相應地設置重複因子。注意,我們僅對維基百科進行音譯對處理。
該模型使用自監督掩碼語言建模任務進行訓練。我們進行全詞掩碼,最多進行80次預測。模型訓練了1000K步,批次大小為4096,最大序列長度為512。
可訓練參數
模塊中的所有參數均可訓練,建議對所有參數進行微調。
使用與限制
該模型旨在用於印度語言的各種下游NLP任務。該模型也在音譯數據上進行了訓練,這在印度語境中是常見現象。預計該模型在預訓練所用語言(即17種印度語言)之外的語言上表現不佳。
評估
我們提供了該模型在一組下游任務上的微調結果。
我們從XTREME基準測試中選擇這些任務,並在印度語言測試集上進行評估。
我們還對測試集進行音譯並進行評估。
除TyDiQA外,我們使用與 [9] 相同的微調設置,在TyDiQA任務中,我們使用額外的SQuAD v1.1英語訓練數據,與 [10] 類似。
對於Tatoeba,我們不對模型進行微調,而是使用最後一層的池化輸出作為句子嵌入。
所有結果均在零樣本設置下計算,英語作為高資源訓練集語言。
任務 |
指標 |
ml |
ta |
te |
en |
bn |
hi |
mr |
ur |
平均 |
PANX |
F1 |
75.74 |
71.86 |
64.99 |
84.43 |
85.97 |
78.09 |
74.63 |
85.07 |
77.60 |
UDPOS |
F1 |
|
|
|
95.55 |
64.47 |
82.95 |
62.57 |
85.63 |
58.93 |
XNLI |
準確率 |
|
|
|
83.85 |
70.66 |
|
|
67.70 |
74.07 |
Tatoeba |
準確率 |
26.35 |
36.81 |
17.52 |
|
31.50 |
26.60 |
|
17.10 |
25.15 |
XQUAD |
F1/EM |
|
|
|
84.31/72.94 |
|
73.93/58.32 |
|
|
79.12/65.63 |
MLQA |
F1/EM |
|
|
|
80.28/67.37 |
|
67.34/50.22 |
|
|
73.81/58.80 |
TyDiQA |
F1/EM |
|
|
|
74.10/64.55 |
78.03/66.37 |
|
73.95/46.94 |
|
75.36/59.28 |
以下是上述測試集音譯版本的結果:
任務 |
指標 |
ml_tr |
ta_tr |
te_tr |
bn_tr |
hi_tr |
mr_tr |
ur_tr |
平均 |
PANX |
F1 |
63.39 |
7.00 |
53.62 |
72.94 |
69.75 |
68.77 |
68.41 |
57.70 |
UDPOS |
F1 |
|
|
|
|
63.09 |
67.19 |
58.40 |
65.30 |
XNLI |
準確率 |
|
|
|
|
68.24 |
|
61.16 |
|
Tatoeba |
準確率 |
10.33 |
11.07 |
11.54 |
8.10 |
14.90 |
7.20 |
13.70 |
10.98 |
參考文獻
[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Wikipedia
[3] [Common Crawl](http://commoncrawl.org/the - data/)
[4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html)
[5] [Dakshina](https://github.com/google - research - datasets/dakshina)
[6] 阿薩姆語 (as)、孟加拉語 (bn)、英語 (en)、古吉拉特語 (gu)、印地語 (hi)、卡納達語 (kn)、克什米爾語 (ks)、馬拉雅拉姆語 (ml)、馬拉地語 (mr)、尼泊爾語 (ne)、奧里亞語 (or)、旁遮普語 (pa)、梵語 (sa)、信德語 (sd)、泰米爾語 (ta)、泰盧固語 (te) 和烏爾都語 (ur)。
[7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019).
[8] [IndicTrans](https://github.com/libindic/indic - trans)
[9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080.
[10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.
引用
如果你在應用中發現MuRIL很有用,請引用以下論文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
聯繫我們
如有任何疑問或反饋,請發送郵件至muril - contact@google.com。