B

Bert Base Arabertv01

由aubmindlab開發
基於BERT架構的阿拉伯語預訓練語言模型,支持多種阿拉伯語NLP任務
下載量 293
發布時間 : 3/2/2022

模型概述

AraBERT是基於谷歌BERT架構的阿拉伯語預訓練語言模型,專為阿拉伯語自然語言理解任務設計。模型分為v0.1和v1兩個版本,主要區別在於v1版本使用Farasa分詞器對文本進行前綴/後綴分割預處理。

模型特點

阿拉伯語優化
專門針對阿拉伯語特性進行優化,包括字符集和分詞處理
多版本支持
提供v0.1和v1兩個版本,v1版使用Farasa分詞器進行更精細的預處理
大規模預訓練
基於7700萬句子/23GB/27億詞的阿拉伯語語料庫訓練

模型能力

文本掩碼預測
情感分析
命名實體識別
問答系統

使用案例

情感分析
阿拉伯社交媒體情感分析
分析阿拉伯語社交媒體帖子的情感傾向
在HARD、ASTD-Balanced等6個阿拉伯情感分析數據集上表現優異
信息提取
阿拉伯語命名實體識別
識別阿拉伯文本中的人名、地名等實體
在ANERcorp數據集上表現良好
問答系統
阿拉伯語問答
構建阿拉伯語問答系統
在Arabic-SQuAD和ARCD數據集上表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase