M

Muril Large Cased

由google開發
基於BERT大型架構的多語言印度語言預訓練模型,涵蓋17種印度語言及其轉寫版本
下載量 6,307
發布時間 : 3/2/2022

模型概述

MuRIL是針對印度語言優化的多語言表徵模型,通過整合翻譯和轉寫數據提升低資源語言性能,適用於印度語言的NLP任務

模型特點

多語言轉寫優化
同時訓練原始文本與轉寫文本對,專門處理印度常見的語言轉寫現象
低資源語言增強
採用0.3指數上採樣策略,顯著提升低資源語言的模型性能
平行數據訓練
整合翻譯數據(Google NMT)和轉寫數據(IndicTrans)進行聯合訓練

模型能力

多語言文本理解
跨語言轉寫處理
命名實體識別
文本分類
問答系統

使用案例

政府服務
多語言政策文件分析
處理印度不同語言版本的政府文件
PANX任務F1值達77.7%
教育
跨語言教育資源處理
自動處理不同印度語言版本的教育材料
TyDiQA任務F1值提升3%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase