🚀 MuRIL Large
MuRIL Large是一個基於BERT架構的大型預訓練模型,專為印度語言設計。它在17種印度語言及其音譯版本上進行了預訓練,能夠為印度語言的自然語言處理任務提供強大的支持。
🚀 快速開始
MuRIL Large模型可用於多種印度語言的下游NLP任務。由於文檔未提供具體使用代碼示例,你可以根據模型的輸入輸出要求,結合自己的任務場景進行使用。
✨ 主要特性
- 多語言支持:該模型使用BERT大型架構,針對17種印度語言及其音譯版本進行了從頭開始的預訓練,支持多種印度語言的處理。
- 訓練範式優化:採用了類似於多語言BERT的訓練範式,並進行了一些改進。包括在訓練中加入翻譯和音譯片段對,以及在採樣時使用0.3的指數值(而非0.7),以提高低資源語言的性能。
🔧 技術細節
訓練數據
- 單語數據:使用了來自維基百科和Common Crawl的17種印度語言的公開可用語料庫。
- 平行數據:
- 翻譯數據:通過Google NMT管道獲取上述單語語料庫的翻譯,並使用公開可用的PMINDIA語料庫。
- 音譯數據:使用IndicTrans庫獲取維基百科的音譯,並使用公開可用的Dakshina數據集。
訓練參數設置
- 上採樣指數:使用0.3的指數值來計算低資源語言的重複乘數,以進行上採樣,並相應地設置重複因子。
- 訓練任務:使用自監督的掩碼語言建模任務進行訓練,採用全詞掩碼,最大預測數為80。
- 訓練步數和批次大小:模型訓練了1500K步,批次大小為8192,最大序列長度為512。
可訓練參數
模塊中的所有參數都是可訓練的,建議對所有參數進行微調。
📦 使用與限制
用途
該模型旨在用於印度語言的各種下游NLP任務,並且在音譯數據上進行了訓練,適用於印度語境中常見的音譯現象。
限制
該模型僅在17種印度語言上進行了訓練,對於其他語言的性能可能不佳。
📊 評估結果
下游任務微調結果
任務 |
指標 |
語言 |
XLM - R (Large) |
MuRIL (Large) |
PANX |
F1 |
bn, en, hi, ml, mr, ta, te, ur |
68.0(平均) |
77.7(平均) |
UDPOS |
F1 |
en, hi, mr, ta, te, ur |
79.2(平均) |
77.3(平均) |
XNLI |
準確率 |
en, hi, ur |
78.7(平均) |
78.6(平均) |
XQUAD |
F1/EM |
en, hi |
81.6/67.7(平均) |
83.3/70.1(平均) |
MLQA |
F1/EM |
en, hi |
77.1/61.9(平均) |
78.3/62.9(平均) |
TyDiQA |
F1/EM |
en, bn, te |
68.5/49.4(平均) |
71.5/56.6(平均) |
微調超參數
任務 |
批次大小 |
學習率 |
輪數 |
熱身比例 |
PANX |
32 |
2e - 5 |
10 |
0.1 |
UDPOS |
64 |
5e - 6 |
10 |
0.1 |
XNLI |
128 |
2e - 5 |
5 |
0.1 |
XQuAD |
32 |
3e - 5 |
2 |
0.1 |
MLQA |
32 |
3e - 5 |
2 |
0.1 |
TyDiQA |
32 |
3e - 5 |
3 |
0.1 |
📖 參考文獻
[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Wikipedia
[3] [Common Crawl](http://commoncrawl.org/the - data/)
[4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html)
[5] [Dakshina](https://github.com/google - research - datasets/dakshina)
[6] Assamese (as), Bengali (bn), English (en), Gujarati (gu), Hindi (hi), Kannada (kn), Kashmiri (ks), Malayalam (ml), Marathi (mr), Nepali (ne), Oriya (or), Punjabi (pa), Sanskrit (sa), Sindhi (sd), Tamil (ta), Telugu (te) and Urdu (ur).
[7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019).
[8] [IndicTrans](https://github.com/libindic/indic - trans)
[9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080.
[10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.
📄 引用
如果你在應用中發現MuRIL很有用,請引用以下論文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📞 聯繫我們
如果有任何疑問或反饋,請發送郵件至muril - contact@google.com。