B

Bert Base Arabic Camelbert Msa

CAMeL-Labによって開発
CAMeLBERTはアラビア語NLPタスク向けの事前学習モデルセットで、このモデルは現代標準アラビア語(MSA)のバリエーションで、126億のトークンで学習されています。
ダウンロード数 1,212
リリース時間 : 3/2/2022

モデル概要

現代標準アラビア語のテキストで事前学習されたBERTモデルで、マスク言語モデリングと下流のNLPタスクの微調整をサポートします。

モデル特徴

多方言対応
古典アラビア語(CA)、方言アラビア語(DA)、現代標準アラビア語(MSA)の3種類のバリエーションの専用モデルを提供します。
データ規模の拡張性
完全なデータから1/16のデータまでの様々な規模の事前学習モデルを提供し、さまざまな計算要件に対応します。
専用の前処理
アラビア語専用の前処理フローを採用し、変音符号の処理と文字の正規化を含みます。

モデル能力

アラビア語テキスト理解
マスク言語モデリング
固有表現抽出
品詞タグ付け
感情分析
方言識別

使用事例

テキスト分析
アラビア語ニュース分類
MSAニューステキストのトピック分類を行います。
ArSASデータセットで93%のF1スコアを達成しました。
言語研究
古典詩分類
アラビア古典詩の時期とスタイルを識別します。
APCDデータセットで80.9%の正解率(CAバリエーションが最適)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase