muril-large-cased開源多語言模型 - 支持17種印度語言及轉寫文本處理

首頁

Muril Large Cased

由google開發

基於BERT大型架構的多語言印度語言預訓練模型，涵蓋17種印度語言及其轉寫版本

大型語言模型

Transformers

#印度多語言處理 #轉寫文本優化 #低資源語言增強

下載量 6,307

發布時間 : 3/2/2022

模型概述

MuRIL是針對印度語言優化的多語言表徵模型，通過整合翻譯和轉寫數據提升低資源語言性能，適用於印度語言的NLP任務

模型特點

多語言轉寫優化

同時訓練原始文本與轉寫文本對，專門處理印度常見的語言轉寫現象

低資源語言增強

採用0.3指數上採樣策略，顯著提升低資源語言的模型性能

平行數據訓練

整合翻譯數據（Google NMT）和轉寫數據（IndicTrans）進行聯合訓練

模型能力

多語言文本理解

跨語言轉寫處理

命名實體識別

文本分類

問答系統

使用案例

政府服務

多語言政策文件分析

處理印度不同語言版本的政府文件

PANX任務F1值達77.7%

教育

跨語言教育資源處理

自動處理不同印度語言版本的教育材料

TyDiQA任務F1值提升3%

🚀 MuRIL Large

MuRIL Large是一個基於BERT架構的大型預訓練模型，專為印度語言設計。它在17種印度語言及其音譯版本上進行了預訓練，能夠為印度語言的自然語言處理任務提供強大的支持。

🚀 快速開始

MuRIL Large模型可用於多種印度語言的下游NLP任務。由於文檔未提供具體使用代碼示例，你可以根據模型的輸入輸出要求，結合自己的任務場景進行使用。

✨ 主要特性

多語言支持：該模型使用BERT大型架構，針對17種印度語言及其音譯版本進行了從頭開始的預訓練，支持多種印度語言的處理。
訓練範式優化：採用了類似於多語言BERT的訓練範式，並進行了一些改進。包括在訓練中加入翻譯和音譯片段對，以及在採樣時使用0.3的指數值（而非0.7），以提高低資源語言的性能。

🔧 技術細節

訓練數據

單語數據：使用了來自維基百科和Common Crawl的17種印度語言的公開可用語料庫。
平行數據：
- 翻譯數據：通過Google NMT管道獲取上述單語語料庫的翻譯，並使用公開可用的PMINDIA語料庫。
- 音譯數據：使用IndicTrans庫獲取維基百科的音譯，並使用公開可用的Dakshina數據集。

訓練參數設置

上採樣指數：使用0.3的指數值來計算低資源語言的重複乘數，以進行上採樣，並相應地設置重複因子。
訓練任務：使用自監督的掩碼語言建模任務進行訓練，採用全詞掩碼，最大預測數為80。
訓練步數和批次大小：模型訓練了1500K步，批次大小為8192，最大序列長度為512。

可訓練參數

模塊中的所有參數都是可訓練的，建議對所有參數進行微調。

📦 使用與限制

用途

該模型旨在用於印度語言的各種下游NLP任務，並且在音譯數據上進行了訓練，適用於印度語境中常見的音譯現象。

限制

該模型僅在17種印度語言上進行了訓練，對於其他語言的性能可能不佳。

📊 評估結果

下游任務微調結果

任務	指標	語言	XLM - R (Large)	MuRIL (Large)
PANX	F1	bn, en, hi, ml, mr, ta, te, ur	68.0（平均）	77.7（平均）
UDPOS	F1	en, hi, mr, ta, te, ur	79.2（平均）	77.3（平均）
XNLI	準確率	en, hi, ur	78.7（平均）	78.6（平均）
XQUAD	F1/EM	en, hi	81.6/67.7（平均）	83.3/70.1（平均）
MLQA	F1/EM	en, hi	77.1/61.9（平均）	78.3/62.9（平均）
TyDiQA	F1/EM	en, bn, te	68.5/49.4（平均）	71.5/56.6（平均）

微調超參數

任務	批次大小	學習率	輪數	熱身比例
PANX	32	2e - 5	10	0.1
UDPOS	64	5e - 6	10	0.1
XNLI	128	2e - 5	5	0.1
XQuAD	32	3e - 5	2	0.1
MLQA	32	3e - 5	2	0.1
TyDiQA	32	3e - 5	3	0.1

📖 參考文獻

[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018. [2] Wikipedia [3] [Common Crawl](http://commoncrawl.org/the - data/) [4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html) [5] [Dakshina](https://github.com/google - research - datasets/dakshina) [6] Assamese (as), Bengali (bn), English (en), Gujarati (gu), Hindi (hi), Kannada (kn), Kashmiri (ks), Malayalam (ml), Marathi (mr), Nepali (ne), Oriya (or), Punjabi (pa), Sanskrit (sa), Sindhi (sd), Tamil (ta), Telugu (te) and Urdu (ur). [7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019). [8] [IndicTrans](https://github.com/libindic/indic - trans) [9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080. [10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.

📄 引用

如果你在應用中發現MuRIL很有用，請引用以下論文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}