B

Bert Large Arabertv02

由 aubmindlab 开发
AraBERT是基于BERT架构的阿拉伯语预训练语言模型,专为阿拉伯语自然语言理解任务优化。
下载量 2,444
发布时间 : 3/2/2022

模型简介

AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型,包含base和large两种规模,支持多种阿拉伯语NLP任务。v2版本改进了预处理和词表策略,使用更大规模训练数据。

模型特点

优化的阿拉伯语预处理
使用Farasa分词器进行前缀/后缀分割预处理,改进数字和标点处理
扩展的训练数据
使用200M句子/77GB/86亿词的阿拉伯语料库,比v1版本增加3.5倍
多尺寸选择
提供base(136M)和large(371M)两种参数规模的模型变体
HuggingFace集成
所有模型托管于HuggingFace,支持PyTorch/TensorFlow框架

模型能力

阿拉伯语文本理解
情感分析
命名实体识别
问答系统

使用案例

情感分析
社交媒体情绪监测
分析阿拉伯语社交媒体帖子的情感倾向
在HARD、ASTD-Balanced等数据集上表现优异
信息提取
命名实体识别
从阿拉伯语文本中识别人名、地名等实体
在ANERcorp数据集上评估
智能问答
阿拉伯语问答系统
基于Arabic-SQuAD/ARCD数据集的问答应用
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase