R

Roberta Base Mr

由flax-community開發
基於自監督方式在大規模馬拉地語語料上預訓練的transformers模型,主要用於掩碼語言建模和下游任務微調
下載量 156
發布時間 : 3/2/2022

模型概述

使用掩碼語言建模(MLM)目標預訓練的馬拉地語模型,基於RoBERTa架構,適用於序列分類、標記分類等任務

模型特點

大規模馬拉地語預訓練
基於C4多語言數據集的mr子集預訓練,包含140億詞符的馬拉地語內容
動態掩碼機制
與BERT不同,採用預訓練期間動態掩碼策略,增強模型泛化能力
下游任務適配性
專為需要整句理解的序列分類、標記分類等下游任務優化

模型能力

掩碼語言建模
文本分類
序列標註

使用案例

新聞分類
馬拉地語新聞標題分類
對新聞標題進行'州/娛樂/體育'分類
測試集準確率94.21%,優於iNLTK ULMFiT的92.4%
IndicNLP新聞分類
對新聞內容進行'生活方式/娛樂/體育'分類
測試集準確率97.48%,優於現有方案
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase