R

Roberta Base Mr

flax-communityによって開発
自己教師付き方式で大規模なマラーティー語コーパス上で事前学習されたtransformersモデルで、主にマスク言語モデリングと下流タスクの微調整に使用されます。
ダウンロード数 156
リリース時間 : 3/2/2022

モデル概要

マスク言語モデリング(MLM)の目標で事前学習されたマラーティー語モデルで、RoBERTaアーキテクチャに基づいており、シーケンス分類、タグ付け分類などのタスクに適しています。

モデル特徴

大規模なマラーティー語の事前学習
C4多言語データセットのmrサブセットに基づいて事前学習され、140億の単語記号のマラーティー語の内容が含まれています。
動的マスクメカニズム
BERTとは異なり、事前学習中に動的マスク戦略を採用し、モデルの汎化能力を強化します。
下流タスクの適合性
文全体の理解が必要なシーケンス分類、タグ付け分類などの下流タスクに特化して最適化されています。

モデル能力

マスク言語モデリング
テキスト分類
シーケンスラベリング

使用事例

ニュース分類
マラーティー語のニュースタイトル分類
ニュースタイトルを「州/エンターテインメント/スポーツ」に分類します。
テストセットの正解率は94.21%で、iNLTK ULMFiTの92.4%より優れています。
IndicNLPのニュース分類
ニュース内容を「ライフスタイル/エンターテインメント/スポーツ」に分類します。
テストセットの正解率は97.48%で、既存の方案より優れています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase