🚀 阿拉伯语BERT大型模型
这是一个预训练的BERT大型阿拉伯语语言模型,可用于处理阿拉伯语相关的自然语言处理任务,为阿拉伯语的语义理解等工作提供强大支持。
如果您在工作中使用了此模型,请引用以下论文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
✨ 主要特性
- 基于BERT架构,专为阿拉伯语设计,能有效处理阿拉伯语的语义理解、文本分类等任务。
- 预训练语料丰富,涵盖约82亿个单词,保证了模型的泛化能力。
📦 安装指南
您可以通过安装 torch
或 tensorflow
以及Huggingface库 transformers
来使用此模型。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-large-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-large-arabic")
📚 详细文档
预训练语料
arabic-bert-large
模型在约82亿个单词上进行了预训练:
以及其他阿拉伯语资源,总计约95GB的文本。
关于训练数据的说明:
- 我们最终版本的语料库中包含一些非阿拉伯语单词,由于去除这些单词会影响命名实体识别(NER)等任务,因此我们没有从句子中移除它们。
- 虽然在预处理步骤中对非阿拉伯语字符进行了小写处理,但由于阿拉伯语字符没有大小写之分,因此该模型没有区分大小写的版本。
- 语料库和词汇集并不局限于现代标准阿拉伯语,还包含一些方言阿拉伯语。
预训练细节
- 该模型使用Google BERT的GitHub 仓库 在由 TFRC 免费提供的单个TPU v3 - 8上进行训练。
- 我们的预训练过程遵循BERT的训练设置,但有一些更改:训练步数为300万步,批量大小为128,而不是100万步和批量大小256。
结果
有关模型性能的更多详细信息或其他问题,请参考 Arabic - BERT。
📄 许可证
文档中未提及相关许可证信息。
致谢
感谢Google为训练过程提供免费的TPU,以及Huggingface在其服务器上托管此模型😊。