B

Bert Base Arabic Camelbert Msa

由CAMeL-Lab開發
CAMeLBERT是針對阿拉伯語NLP任務的預訓練模型集合,本模型為現代標準阿拉伯語(MSA)變體,基於126億詞元訓練
下載量 1,212
發布時間 : 3/2/2022

模型概述

基於現代標準阿拉伯語文本預訓練的BERT模型,支持掩碼語言建模及下游NLP任務微調

模型特點

多方言支持
提供古典阿拉伯語(CA)、方言阿拉伯語(DA)和現代標準阿拉伯語(MSA)三種變體的專用模型
數據規模可擴展
提供從完整數據到1/16數據的多種規模預訓練模型,適應不同計算需求
專業預處理
採用阿拉伯語專用預處理流程,包括變音符號處理和字符規範化

模型能力

阿拉伯語文本理解
掩碼語言建模
命名實體識別
詞性標註
情感分析
方言識別

使用案例

文本分析
阿拉伯語新聞分類
對MSA新聞文本進行主題分類
在ArSAS數據集達93% F1分數
語言研究
古典詩歌分類
識別阿拉伯古典詩歌的時期和風格
APCD數據集上80.9%準確率(CA變體最佳)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase