🚀 阿拉伯语BERT迷你模型
这是一个预训练的阿拉伯语BERT迷你语言模型,可用于处理阿拉伯语相关的自然语言处理任务。
如果您在工作中使用了此模型,请引用以下论文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
🚀 快速开始
要使用这个模型,您需要安装torch
或tensorflow
以及Huggingface库transformers
。然后可以按照以下方式直接初始化使用:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-mini-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-mini-arabic")
✨ 主要特性
- 预训练语料丰富:在约82亿个单词上进行预训练,涵盖多种阿拉伯语资源。
- 训练细节优化:训练过程在单台TPU v3 - 8上进行,训练步骤和批次大小有调整。
📦 安装指南
您需要安装torch
或tensorflow
以及Huggingface库transformers
,可使用以下命令安装:
pip install torch tensorflow transformers
📚 详细文档
预训练语料
arabic-bert-mini
模型在约82亿个单词上进行了预训练,使用的语料包括:
以及其他阿拉伯语资源,总计约95GB的文本。
训练数据说明:
- 最终的语料库中包含一些非阿拉伯语单词,由于去除这些单词会影响命名实体识别(NER)等任务,因此未从句子中移除。
- 尽管在预处理步骤中对非阿拉伯语字符进行了小写处理,但由于阿拉伯语字符没有大小写之分,所以该模型没有大小写版本。
- 语料库和词汇集不限于现代标准阿拉伯语,还包含一些方言阿拉伯语。
预训练细节
- 该模型使用Google BERT的GitHub 仓库在由TFRC免费提供的单台TPU v3 - 8上进行训练。
- 预训练过程遵循BERT的训练设置,但有一些调整:训练300万个步骤,批次大小为128,而不是100万个步骤,批次大小为256。
模型结果
有关模型性能的更多详细信息或其他问题,请参考Arabic - BERT。
📄 许可证
文档未提及相关许可证信息。
致谢
感谢Google为训练过程提供免费的TPU,以及Huggingface在其服务器上托管此模型😊