B

Bert Base Arabertv2

由aubmindlab開發
AraBERT是基於BERT架構的阿拉伯語預訓練語言模型,針對阿拉伯語理解任務優化,包含多個版本變體。
下載量 24.20k
發布時間 : 3/2/2022

模型概述

AraBERT是專門為阿拉伯語設計的預訓練語言模型,基於谷歌BERT架構,在多項阿拉伯語NLP任務中表現優異。

模型特點

阿拉伯語優化分詞
使用Farasa分詞器對阿拉伯語前綴後綴進行預分割處理,提高語言理解準確性
大規模訓練數據
使用77GB阿拉伯語數據(2億句子/86億詞)訓練,數據來源包括維基百科、OSCAR等權威語料
多版本支持
提供基礎版和大版兩種規模,以及是否預分割的不同變體,滿足不同應用需求
下游任務表現優異
在情感分析、NER、問答等多項阿拉伯語NLP任務中超越mBERT等基線模型

模型能力

阿拉伯語文本理解
情感分析
命名實體識別
問答系統
文本分類

使用案例

情感分析
阿拉伯社交媒體情感分析
分析阿拉伯語社交媒體文本的情感傾向
在HARD、ASTD等數據集上表現優異
信息提取
阿拉伯語命名實體識別
識別阿拉伯文本中的人名、地名等實體
在ANERcorp數據集上取得良好效果
問答系統
阿拉伯語閱讀理解
回答基於阿拉伯語文章的提問
在Arabic-SQuAD和ARCD數據集上表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase