🚀 QARiB:QCRI阿拉伯语及方言BERT模型
QARiB模型是一个基于阿拉伯语及方言的BERT模型,它在约4.2亿条推文和约1.8亿个文本句子的数据集上进行训练。该模型可用于掩码语言建模和下一句预测等自然语言处理任务,在多个下游任务中表现优于多语言BERT、AraBERT和ArabicBERT等模型。
🚀 快速开始
QCRI阿拉伯语及方言BERT(QARiB)模型在约4.2亿条推文和约1.8亿个文本句子的集合上进行了训练。对于推文数据,是使用Twitter API并通过lang:ar
语言过滤器收集的;对于文本数据,则是来自阿拉伯语千兆词库、Abulkhair阿拉伯语语料库和OPUS的组合。
✨ 主要特性
bert - base - qarib60_1790k
- 数据大小:60GB
- 迭代次数:1790k
- 损失值:1.8764963
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
你可以直接使用此模型进行掩码语言建模:
>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")
>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'},
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'},
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'},
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'},
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}]
>>> fill_mask("قللي وشفيييك يرحم [MASK]")
[{'sequence': '[CLS] قللي وشفيييك يرحم والديك [SEP]', 'score': 0.4152909517288208, 'token': 9650, 'token_str': 'والديك'},
{'sequence': '[CLS] قللي وشفيييك يرحملي [SEP]', 'score': 0.07663793861865997, 'token': 294, 'token_str': '##لي'},
{'sequence': '[CLS] قللي وشفيييك يرحم حالك [SEP]', 'score': 0.0453166700899601, 'token': 2663, 'token_str': 'حالك'},
{'sequence': '[CLS] قللي وشفيييك يرحم امك [SEP]', 'score': 0.04390475153923035, 'token': 1942, 'token_str': 'امك'},
{'sequence': '[CLS] قللي وشفيييك يرحمونك [SEP]', 'score': 0.027349254116415977, 'token': 3283, 'token_str': '##ونك'}]
>>> fill_mask("وقام المدير [MASK]")
[
{'sequence': '[CLS] وقام المدير بالعمل [SEP]', 'score': 0.0678194984793663, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقام المدير بذلك [SEP]', 'score': 0.05191086605191231, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقام المدير بالاتصال [SEP]', 'score': 0.045264165848493576, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقام المدير بعمله [SEP]', 'score': 0.03732728958129883, 'token': 40486, 'token_str': 'بعمله'},
{'sequence': '[CLS] وقام المدير بالامر [SEP]', 'score': 0.0246378555893898, 'token': 29124, 'token_str': 'بالامر'}
]
>>> fill_mask("وقامت المديرة [MASK]")
[{'sequence': '[CLS] وقامت المديرة بذلك [SEP]', 'score': 0.23992691934108734, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقامت المديرة بالامر [SEP]', 'score': 0.108805812895298, 'token': 29124, 'token_str': 'بالامر'},
{'sequence': '[CLS] وقامت المديرة بالعمل [SEP]', 'score': 0.06639821827411652, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقامت المديرة بالاتصال [SEP]', 'score': 0.05613093823194504, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقامت المديرة المديرة [SEP]', 'score': 0.021778125315904617, 'token': 41635, 'token_str': 'المديرة'}]
你可以使用原始模型进行掩码语言建模或下一句预测,但该模型主要用于在下游任务中进行微调。你可以在模型中心查找针对你感兴趣任务的微调版本。更多详情请见使用QARiB
📚 详细文档
训练过程
该模型使用谷歌原始的TensorFlow代码在谷歌云TPU v2上进行训练。我们使用谷歌云存储桶来持久存储训练数据和模型。更多详细信息请见训练QARiB
评估结果
我们在五个自然语言处理下游任务上对QARiB模型进行了评估:
- 情感分析
- 情感检测
- 命名实体识别(NER)
- 冒犯性语言检测
- 方言识别
QARiB模型在这些任务上的表现优于多语言BERT、AraBERT和ArabicBERT。
模型权重和词汇表下载
你可以从Huggingface网站下载模型权重和词汇表:https://huggingface.co/qarib/qarib/bert - base - qarib60_1790k
联系方式
Ahmed Abdelali、Sabit Hassan、Hamdy Mubarak、Kareem Darwish和Younes Samih
参考文献
@article{abdelali2021pretraining,
title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
year={2021},
eprint={2102.10684},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
信息表格
属性 |
详情 |
模型类型 |
QCRI阿拉伯语及方言BERT模型 |
训练数据 |
约4.2亿条推文和约1.8亿个文本句子,推文使用Twitter API并通过lang:ar 语言过滤器收集,文本数据来自阿拉伯语千兆词库、Abulkhair阿拉伯语语料库和OPUS |
训练代码 |
谷歌原始的TensorFlow代码 |
训练设备 |
谷歌云TPU v2 |
评估任务 |
情感分析、情感检测、命名实体识别、冒犯性语言检测、方言识别 |
模型下载地址 |
https://huggingface.co/qarib/qarib/bert-base-qarib60_1790k |
联系方式 |
Ahmed Abdelali、Sabit Hassan、Hamdy Mubarak、Kareem Darwish和Younes Samih |
参考文献 |
@article{abdelali2021pretraining, title={Pre - Training BERT on Arabic Tweets: Practical Considerations}, author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih}, year={2021}, eprint={2102.10684}, archivePrefix={arXiv}, primaryClass={cs.CL}} |