🚀 MARBERTv2阿拉伯书面方言分类器
该模型是一个用于阿拉伯书面方言分类的工具,它基于预训练模型进行微调,能够从原始文本中识别现代标准阿拉伯语(MSA)和4种地区阿拉伯方言,可应用于方言识别、语言研究和方言感知自然语言处理系统等任务。
🚀 快速开始
安装依赖
确保你已经安装了transformers
库:
pip install transformers torch
运行示例代码
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "IbrahimAmin/marbertv2-arabic-written-dialect-classifier"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "الدنيا مش مستاهلة تجري كده، خد وقتك واستمتع بالحاجة البسيطة"
inputs = tokenizer(text, return_tensors="pt")
with torch.inference_mode():
logits = model(**inputs).logits
pred = torch.argmax(logits, dim=-1).item()
print(f"Predicted Dialect: {model.config.id2label[pred]}")
✨ 主要特性
- 基于
UBC-NLP/MARBERTv2
模型微调,专为阿拉伯语优化。
- 能够区分五种主要的阿拉伯书面方言区域,包括马格里布、黎凡特、现代标准阿拉伯语、海湾和埃及方言。
- 适用于短阿拉伯文本片段的方言识别,数据来源广泛,包括社交媒体、论坛和非正式写作。
📚 详细文档
🔧 模型详情
该模型是在多方言分类任务上对MARBERTv2进行微调得到的。MARBERTv2是一个基于Transformer的语言模型,针对阿拉伯语进行了优化。该模型可以区分以下五个主要的阿拉伯书面方言区域:
- MAGHREB(北非方言)
- LEV(黎凡特方言)
- MSA(现代标准阿拉伯语)
- GLF(海湾方言)
- EGY(埃及阿拉伯语)
📄 标签 (id2label
)
模型预测以下五个类别之一:
{
"0": "MAGHREB",
"1": "LEV",
"2": "MSA",
"3": "GLF",
"4": "EGY"
}
📦 训练数据
模型使用了来自9个不同公开可用数据集的约850,000 + 阿拉伯语句子进行训练,涵盖了广泛的阿拉伯书面方言。
按方言分布情况:
方言 |
数量 |
GLF |
253,553 |
LEV |
243,025 |
MAGHREB |
140,887 |
EGY |
105,226 |
MSA |
83,231 |
📊 使用的数据集
以下是训练过程中使用或开发过程中考虑的数据集的详细概述:
数据集 |
简要描述 |
标注策略 |
提供的标签 |
当前最优性能 |
MADAR Subtask - 1 (MADAR - 6) |
一组平行句子 (BTEC) ,涵盖了阿拉伯世界5个城市和现代标准阿拉伯语 在旅游领域的方言(每个城市10,000个句子) |
手动 |
5个阿拉伯城市 + 现代标准阿拉伯语 |
92.5% 准确率 |
MADAR Subtask - 1 (MADAR - 26) |
一组平行句子 (BTEC) ,涵盖了阿拉伯世界25个城市和现代标准阿拉伯语 在旅游领域的方言(每个城市2,000个句子) |
手动 |
25个阿拉伯城市 + 现代标准阿拉伯语 |
67.32% F1分数 |
DART |
通过众包标注的25K条推文 ,在五个主要阿拉伯方言组中分布均衡 |
手动 |
5个阿拉伯地区 |
未知 |
ArSarcasm v1 |
来自ASTD和SemEval数据集 的10,547条推文 ,用于讽刺检测,并添加了方言信息 |
手动 |
4个阿拉伯地区 + 现代标准阿拉伯语 |
未知 |
ArSarcasm v2 |
ArSarcasm - v2数据集包含15,548条推文 ,是原始ArSarcasm数据集的扩展(由ArScarcasm v1以及DAICT语料库的部分内容和一些新推文组成) |
手动 |
4个阿拉伯地区 + 现代标准阿拉伯语 |
未知 |
IADD |
确定、分析和过滤了五个公开可用的语料库 以构建IADD(AOC、DART、PADIC、SHAMI和TSAC) |
无 |
5个地区和9个国家 |
未知 |
QADI |
540k条推文 (平均每个国家30k条),总共880万个单词 |
自动 |
18个阿拉伯国家 |
60.6% |
AOC |
阿拉伯在线评论数据集基于三家阿拉伯报纸的在线版本的读者评论:约旦的AlGhad、沙特阿拉伯的Al - Riyadh和埃及的Al - Youm Al - Sabe‘ |
手动 |
3个阿拉伯地区 + 现代标准阿拉伯语 |
未知 |
NADI - 2020 |
来自100个阿拉伯省份和21个阿拉伯国家的25,957条推文 |
自动 |
100个省份和21个国家 |
6.39% - 26.78% |
📄 许可证
本模型使用Apache - 2.0许可证。
🎉 致谢
- UBC - NLP的MARBERTv2团队
- 训练中使用的阿拉伯方言数据集的贡献者
📝 引用
如果您在研究或应用中使用此模型,请引用:
@misc{ibrahimamin_marbertv2_arabic_written_dialect_classifier,
author = {Ibrahim Amin},
title = {MARBERTv2 Arabic Written Dialect Classifier},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/IbrahimAmin/marbertv2-arabic-written-dialect-classifier}},
}