🚀 MARBERTv2阿拉伯書面方言分類器
該模型是一個用於阿拉伯書面方言分類的工具,它基於預訓練模型進行微調,能夠從原始文本中識別現代標準阿拉伯語(MSA)和4種地區阿拉伯方言,可應用於方言識別、語言研究和方言感知自然語言處理系統等任務。
🚀 快速開始
安裝依賴
確保你已經安裝了transformers
庫:
pip install transformers torch
運行示例代碼
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "IbrahimAmin/marbertv2-arabic-written-dialect-classifier"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "الدنيا مش مستاهلة تجري كده، خد وقتك واستمتع بالحاجة البسيطة"
inputs = tokenizer(text, return_tensors="pt")
with torch.inference_mode():
logits = model(**inputs).logits
pred = torch.argmax(logits, dim=-1).item()
print(f"Predicted Dialect: {model.config.id2label[pred]}")
✨ 主要特性
- 基於
UBC-NLP/MARBERTv2
模型微調,專為阿拉伯語優化。
- 能夠區分五種主要的阿拉伯書面方言區域,包括馬格里布、黎凡特、現代標準阿拉伯語、海灣和埃及方言。
- 適用於短阿拉伯文本片段的方言識別,數據來源廣泛,包括社交媒體、論壇和非正式寫作。
📚 詳細文檔
🔧 模型詳情
該模型是在多方言分類任務上對MARBERTv2進行微調得到的。MARBERTv2是一個基於Transformer的語言模型,針對阿拉伯語進行了優化。該模型可以區分以下五個主要的阿拉伯書面方言區域:
- MAGHREB(北非方言)
- LEV(黎凡特方言)
- MSA(現代標準阿拉伯語)
- GLF(海灣方言)
- EGY(埃及阿拉伯語)
📄 標籤 (id2label
)
模型預測以下五個類別之一:
{
"0": "MAGHREB",
"1": "LEV",
"2": "MSA",
"3": "GLF",
"4": "EGY"
}
📦 訓練數據
模型使用了來自9個不同公開可用數據集的約850,000 + 阿拉伯語句子進行訓練,涵蓋了廣泛的阿拉伯書面方言。
按方言分佈情況:
方言 |
數量 |
GLF |
253,553 |
LEV |
243,025 |
MAGHREB |
140,887 |
EGY |
105,226 |
MSA |
83,231 |
📊 使用的數據集
以下是訓練過程中使用或開發過程中考慮的數據集的詳細概述:
數據集 |
簡要描述 |
標註策略 |
提供的標籤 |
當前最優性能 |
MADAR Subtask - 1 (MADAR - 6) |
一組平行句子 (BTEC) ,涵蓋了阿拉伯世界5個城市和現代標準阿拉伯語 在旅遊領域的方言(每個城市10,000個句子) |
手動 |
5個阿拉伯城市 + 現代標準阿拉伯語 |
92.5% 準確率 |
MADAR Subtask - 1 (MADAR - 26) |
一組平行句子 (BTEC) ,涵蓋了阿拉伯世界25個城市和現代標準阿拉伯語 在旅遊領域的方言(每個城市2,000個句子) |
手動 |
25個阿拉伯城市 + 現代標準阿拉伯語 |
67.32% F1分數 |
DART |
通過眾包標註的25K條推文 ,在五個主要阿拉伯方言組中分佈均衡 |
手動 |
5個阿拉伯地區 |
未知 |
ArSarcasm v1 |
來自ASTD和SemEval數據集 的10,547條推文 ,用於諷刺檢測,並添加了方言信息 |
手動 |
4個阿拉伯地區 + 現代標準阿拉伯語 |
未知 |
ArSarcasm v2 |
ArSarcasm - v2數據集包含15,548條推文 ,是原始ArSarcasm數據集的擴展(由ArScarcasm v1以及DAICT語料庫的部分內容和一些新推文組成) |
手動 |
4個阿拉伯地區 + 現代標準阿拉伯語 |
未知 |
IADD |
確定、分析和過濾了五個公開可用的語料庫 以構建IADD(AOC、DART、PADIC、SHAMI和TSAC) |
無 |
5個地區和9個國家 |
未知 |
QADI |
540k條推文 (平均每個國家30k條),總共880萬個單詞 |
自動 |
18個阿拉伯國家 |
60.6% |
AOC |
阿拉伯在線評論數據集基於三家阿拉伯報紙的在線版本的讀者評論:約旦的AlGhad、沙特阿拉伯的Al - Riyadh和埃及的Al - Youm Al - Sabe‘ |
手動 |
3個阿拉伯地區 + 現代標準阿拉伯語 |
未知 |
NADI - 2020 |
來自100個阿拉伯省份和21個阿拉伯國家的25,957條推文 |
自動 |
100個省份和21個國家 |
6.39% - 26.78% |
📄 許可證
本模型使用Apache - 2.0許可證。
🎉 致謝
- UBC - NLP的MARBERTv2團隊
- 訓練中使用的阿拉伯方言數據集的貢獻者
📝 引用
如果您在研究或應用中使用此模型,請引用:
@misc{ibrahimamin_marbertv2_arabic_written_dialect_classifier,
author = {Ibrahim Amin},
title = {MARBERTv2 Arabic Written Dialect Classifier},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/IbrahimAmin/marbertv2-arabic-written-dialect-classifier}},
}