R

Roberta Hindi

由flax-community開發
基於海量印地語數據預訓練的RoBERTa模型,支持掩碼語言建模任務
下載量 212
發布時間 : 3/2/2022

模型概述

這是一個在印地語數據上預訓練的RoBERTa模型,採用掩碼語言建模(MLM)目標訓練,可用於文本填充等自然語言處理任務。

模型特點

大規模印地語預訓練
基於mc4、oscar和indic-nlp等大型印地語數據集聯合預訓練
動態掩碼策略
採用15%動態掩碼比例,其中80%替換為<mask>,10%隨機替換,10%保持不變
多數據集整合
整合了多個高質量印地語數據集,包括新聞、評論和維基數據等

模型能力

印地語文本填充
印地語文本理解
印地語語言模型推理

使用案例

文本處理
文本自動補全
自動補全印地語句子中的缺失部分
如示例所示能準確預測'सफर'(旅程)、'पल'(時刻)等合理詞彙
情感分析
產品評論分析
分析印地語產品評論的情感傾向
在IITP產品評論數據集上達到75.53%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase