B

Bert Large Arabertv02

由aubmindlab開發
AraBERT是基於BERT架構的阿拉伯語預訓練語言模型,專為阿拉伯語自然語言理解任務優化。
下載量 2,444
發布時間 : 3/2/2022

模型概述

AraBERT是基於谷歌BERT架構的阿拉伯語預訓練語言模型,包含base和large兩種規模,支持多種阿拉伯語NLP任務。v2版本改進了預處理和詞表策略,使用更大規模訓練數據。

模型特點

優化的阿拉伯語預處理
使用Farasa分詞器進行前綴/後綴分割預處理,改進數字和標點處理
擴展的訓練數據
使用200M句子/77GB/86億詞的阿拉伯語料庫,比v1版本增加3.5倍
多尺寸選擇
提供base(136M)和large(371M)兩種參數規模的模型變體
HuggingFace集成
所有模型託管於HuggingFace,支持PyTorch/TensorFlow框架

模型能力

阿拉伯語文本理解
情感分析
命名實體識別
問答系統

使用案例

情感分析
社交媒體情緒監測
分析阿拉伯語社交媒體帖子的情感傾向
在HARD、ASTD-Balanced等數據集上表現優異
信息提取
命名實體識別
從阿拉伯語文本中識別人名、地名等實體
在ANERcorp數據集上評估
智能問答
阿拉伯語問答系統
基於Arabic-SQuAD/ARCD數據集的問答應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase