muril-base-cased開源模型 - 專為印度語境優化，支持17種印度語言文本處理

首頁

Muril Base Cased

由google開發

MuRIL是一個基於17種印度語言及其轉寫文本預訓練的BERT模型，針對印度語境優化

大型語言模型開源協議:Apache-2.0 #印度多語言模型 #轉寫文本優化 #零樣本遷移

下載量 12.72k

發布時間 : 3/2/2022

模型概述

MuRIL是基於BERT架構的多語言模型，專門針對17種印度語言進行預訓練，包含對轉寫文本的特殊優化

模型特點

多語言支持

支持17種印度語言及其轉寫文本

轉寫優化

專門針對印度語言轉寫現象進行優化

平行數據訓練

使用翻譯和轉寫文本對進行預訓練

低資源語言優化

採用0.3的上採樣指數值提升低資源語言性能

模型能力

多語言文本理解

轉寫文本處理

掩碼語言建模

跨語言遷移學習

使用案例

自然語言處理

命名實體識別

印度語言的命名實體識別任務

PANX任務平均F1達77.60%，顯著優於mBERT

詞性標註

印度語言的詞性標註任務

UDPOS任務平均F1達75.02%，優於mBERT

跨語言自然語言推理

印度語言的XNLI任務

轉寫文本準確率從39.23%提升至64.70%

🚀 MuRIL：印度語言的多語言表徵模型

MuRIL是一個在17種印度語言及其音譯版本上進行預訓練的BERT模型。在本倉庫中，我們發佈了預訓練模型（保留了MLM層，可進行掩碼詞預測）。此外，我們還在 TFHub 上發佈了帶有額外預處理模塊的編碼器，該模塊可將原始文本處理為編碼器所需的輸入格式。你可以在這篇論文中瞭解關於MuRIL的更多細節。

🚀 快速開始

你可以直接從本倉庫獲取預訓練模型，也可以從 TFHub 獲取帶有預處理模塊的編碼器。

✨ 主要特性

多語言支持：在17種印度語言及其音譯版本上進行預訓練。
可靈活使用：發佈了保留MLM層的預訓練模型，支持掩碼詞預測；同時也提供了帶有預處理模塊的編碼器。

📚 詳細文檔

概述

該模型採用BERT基礎架構 [1]，使用維基百科 [2]、Common Crawl [3]、PMINDIA [4] 和Dakshina [5] 語料庫，針對17種 [6] 印度語言從頭開始進行預訓練。

我們採用了類似於多語言BERT的訓練範式，並進行了以下修改：

在訓練中加入了翻譯和音譯的段落對。
上採樣時採用0.3的指數值而非0.7，這已被證明可以提高低資源語言的性能 [7]。

更多細節請參閱訓練部分。

訓練

MuRIL模型在單語段落和並行段落上進行預訓練，詳情如下：

單語數據：我們使用了來自維基百科和Common Crawl的17種印度語言的公開可用語料庫。
並行數據：我們有兩種類型的並行數據：
- 翻譯數據：我們使用Google NMT管道對上述單語語料庫進行翻譯。將翻譯後的段落對作為輸入。我們還使用了公開可用的PMINDIA語料庫。
- 音譯數據：我們使用IndicTrans [8] 庫對維基百科進行音譯。將音譯後的段落對作為輸入。我們還使用了公開可用的Dakshina數據集。

我們使用0.3的指數值來計算低資源語言上採樣的重複乘數，並相應地設置重複因子。注意，我們僅對維基百科進行音譯對處理。

該模型使用自監督掩碼語言建模任務進行訓練。我們進行全詞掩碼，最多進行80次預測。模型訓練了1000K步，批次大小為4096，最大序列長度為512。

可訓練參數

模塊中的所有參數均可訓練，建議對所有參數進行微調。

使用與限制

該模型旨在用於印度語言的各種下游NLP任務。該模型也在音譯數據上進行了訓練，這在印度語境中是常見現象。預計該模型在預訓練所用語言（即17種印度語言）之外的語言上表現不佳。

評估

我們提供了該模型在一組下游任務上的微調結果。我們從XTREME基準測試中選擇這些任務，並在印度語言測試集上進行評估。我們還對測試集進行音譯並進行評估。除TyDiQA外，我們使用與 [9] 相同的微調設置，在TyDiQA任務中，我們使用額外的SQuAD v1.1英語訓練數據，與 [10] 類似。對於Tatoeba，我們不對模型進行微調，而是使用最後一層的池化輸出作為句子嵌入。所有結果均在零樣本設置下計算，英語作為高資源訓練集語言。

任務	指標	ml	ta	te	en	bn	hi	mr	ur	平均
PANX	F1	75.74	71.86	64.99	84.43	85.97	78.09	74.63	85.07	77.60
UDPOS	F1				95.55	64.47	82.95	62.57	85.63	58.93
XNLI	準確率				83.85	70.66			67.70	74.07
Tatoeba	準確率	26.35	36.81	17.52		31.50	26.60		17.10	25.15
XQUAD	F1/EM				84.31/72.94		73.93/58.32			79.12/65.63
MLQA	F1/EM				80.28/67.37		67.34/50.22			73.81/58.80
TyDiQA	F1/EM				74.10/64.55	78.03/66.37		73.95/46.94		75.36/59.28

以下是上述測試集音譯版本的結果：

任務	指標	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	平均
PANX	F1	63.39	7.00	53.62	72.94	69.75	68.77	68.41	57.70
UDPOS	F1					63.09	67.19	58.40	65.30
XNLI	準確率					68.24		61.16
Tatoeba	準確率	10.33	11.07	11.54	8.10	14.90	7.20	13.70	10.98

參考文獻

[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018. [2] Wikipedia [3] [Common Crawl](http://commoncrawl.org/the - data/) [4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html) [5] [Dakshina](https://github.com/google - research - datasets/dakshina) [6] 阿薩姆語 (as)、孟加拉語 (bn)、英語 (en)、古吉拉特語 (gu)、印地語 (hi)、卡納達語 (kn)、克什米爾語 (ks)、馬拉雅拉姆語 (ml)、馬拉地語 (mr)、尼泊爾語 (ne)、奧里亞語 (or)、旁遮普語 (pa)、梵語 (sa)、信德語 (sd)、泰米爾語 (ta)、泰盧固語 (te) 和烏爾都語 (ur)。 [7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019). [8] [IndicTrans](https://github.com/libindic/indic - trans) [9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080. [10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.

引用

如果你在應用中發現MuRIL很有用，請引用以下論文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}