B

Bert Large Arabertv02

Developed by aubmindlab
AraBERT是基于BERT架构的阿拉伯语预训练语言模型,专为阿拉伯语自然语言理解任务优化。
Downloads 2,444
Release Time : 3/2/2022

Model Overview

AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,包含base和large两种规模,支持多种阿拉伯语NLP任务。v2版本改进了预处理和词表策略,使用更大规模训练数据。

Model Features

优化的阿拉伯语预处理
使用Farasa分词器进行前缀/后缀分割预处理,改进数字和标点处理
扩展的训练数据
使用200M句子/77GB/86亿词的阿拉伯语料库,比v1版本增加3.5倍
多尺寸选择
提供base(136M)和large(371M)两种参数规模的模型变体
HuggingFace集成
所有模型托管于HuggingFace,支持PyTorch/TensorFlow框架

Model Capabilities

阿拉伯语文本理解
情感分析
命名实体识别
问答系统

Use Cases

情感分析
社交媒体情绪监测
分析阿拉伯语社交媒体帖子的情感倾向
在HARD、ASTD-Balanced等数据集上表现优异
信息提取
命名实体识别
从阿拉伯语文本中识别人名、地名等实体
在ANERcorp数据集上评估
智能问答
阿拉伯语问答系统
基于Arabic-SQuAD/ARCD数据集的问答应用
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase