R

Roberta Base Ca

PlanTL-GOB-ESによって開発
RoBERTaアーキテクチャに基づくカタルーニャ語の事前学習言語モデルで、スペイン政府機関によって開発されました。
ダウンロード数 15.56k
リリース時間 : 3/2/2022

モデル概要

マスク言語モデリングの事前学習を行ったカタルーニャ語のTransformerモデルで、様々な自然言語処理タスクに適しています。

モデル特徴

専門コーパスでの学習
政府公報、ニュース、ウィキペディアなどの高品質なカタルーニャ語コーパスを統合しました。
包括的な性能評価
CLUBベンチマークテストで、mBERT/XLM - RoBERTaなどの多言語モデルを上回りました。
効率的な事前学習
16台のV100 GPUを使用して、48時間で18億トークンの学習を完了しました。

モデル能力

マスク単語予測
テキスト分類
固有表現認識
意味的類似度計算
質問応答システム

使用事例

政府テキスト処理
政府公報分析
カタルーニャ政府公報(DOGC)の自動化された理解を行います。
ニュースメディア
ニュース分類
カタルーニャ通信社(ACN)のニュースをトピック分類します。
74.16%の正解率(TeClaデータセット)
教育研究
言語理解評価
CLUBベンチマークテストの基礎モデルとして使用されます。
NERタスクのF1値が88.13で、比較対象のモデルより優れています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase