🚀 阿拉伯语BERT中型模型
这是一个预训练的BERT中型阿拉伯语语言模型。它能够为阿拉伯语相关的自然语言处理任务提供强大的支持,帮助用户更高效地处理和分析阿拉伯语文本。
🚀 快速开始
你可以通过安装 torch
或 tensorflow
以及Huggingface库 transformers
来使用该模型。以下是初始化并使用该模型的示例代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")
✨ 主要特性
- 基于BERT架构,专为阿拉伯语设计,能有效处理阿拉伯语自然语言处理任务。
- 预训练语料丰富,涵盖多种阿拉伯语资源,包括来自Common Crawl的过滤数据和维基百科数据。
📦 安装指南
若要使用此模型,需要安装 torch
或 tensorflow
以及Huggingface库 transformers
。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")
📚 详细文档
预训练语料库
arabic-bert-medium
模型在约82亿个单词上进行了预训练,使用的语料包括:
以及其他阿拉伯语资源,总计约95GB的文本。
关于训练数据的说明:
- 最终版本的语料库中包含一些非阿拉伯语单词,由于去除这些单词会影响命名实体识别(NER)等任务,因此未从句子中移除。
- 虽然在预处理步骤中对非阿拉伯语字符进行了小写处理,但由于阿拉伯语字符没有大小写之分,所以该模型没有区分大小写的版本。
- 语料库和词汇集不限于现代标准阿拉伯语,还包含一些方言阿拉伯语。
预训练细节
- 该模型使用Google BERT的GitHub 仓库 在由 TFRC 免费提供的单个TPU v3 - 8上进行训练。
- 预训练过程遵循BERT的训练设置,但有一些更改:训练了300万个步骤,批量大小为128,而不是100万个步骤,批量大小为256。
模型性能
如需了解模型性能的更多详细信息或其他问题,请参考 Arabic - BERT。
🔧 技术细节
- 训练使用Google BERT的代码仓库,借助TPU v3 - 8进行加速。
- 调整了训练步骤和批量大小,以适应阿拉伯语语料的特点。
📄 许可证
如果你在工作中使用此模型,请引用以下论文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
致谢
感谢Google为训练过程提供免费的TPU,以及Huggingface在其服务器上托管此模型😊。
属性 |
详情 |
模型类型 |
预训练的BERT中型阿拉伯语语言模型 |
训练数据 |
阿拉伯语版本的OSCAR(从Common Crawl过滤而来)、阿拉伯语维基百科转储数据及其他阿拉伯语资源,总计约95GB文本 |