MARBERTv2阿拉伯語方言分類器 - 開源免費識別五種主要阿拉伯書面方言

首頁

Marbertv2 Arabic Written Dialect Classifier

由IbrahimAmin開發

基於MARBERTv2微調的阿拉伯語方言分類器，可識別五種主要阿拉伯書面方言

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #阿拉伯方言識別 #多方言分類 #社交媒體文本分析

下載量 113

發布時間 : 5/7/2025

模型概述

該模型用於阿拉伯書面方言分類，能夠從原始文本中識別現代標準阿拉伯語（MSA）和4種地區阿拉伯方言（馬格里布、黎凡特、海灣和埃及方言）。

模型特點

多方言識別

能夠區分五種主要的阿拉伯書面方言區域，包括馬格里布、黎凡特、現代標準阿拉伯語、海灣和埃及方言

大規模訓練數據

使用來自9個不同公開數據集的約850,000+阿拉伯語句子進行訓練

社交媒體優化

特別適用於短阿拉伯文本片段的方言識別，數據來源包括社交媒體、論壇和非正式寫作

模型能力

阿拉伯語方言分類

文本分析

社交媒體內容識別

使用案例

語言研究

方言分佈研究

分析社交媒體上不同阿拉伯方言的地理分佈

自然語言處理

方言感知系統

為不同方言區域用戶提供定製化的NLP服務

🚀 MARBERTv2阿拉伯書面方言分類器

該模型是一個用於阿拉伯書面方言分類的工具，它基於預訓練模型進行微調，能夠從原始文本中識別現代標準阿拉伯語（MSA）和4種地區阿拉伯方言，可應用於方言識別、語言研究和方言感知自然語言處理系統等任務。

🚀 快速開始

安裝依賴

確保你已經安裝了transformers庫：

pip install transformers torch

運行示例代碼

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "IbrahimAmin/marbertv2-arabic-written-dialect-classifier"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "ÿßŸÑÿØŸÜŸäÿß ŸÖÿ¥ ŸÖÿ≥ÿ™ÿßŸáŸÑÿ© ÿ™ÿ¨ÿ±Ÿä ŸÉÿØŸáÿå ÿÆÿØ ŸàŸÇÿ™ŸÉ Ÿàÿßÿ≥ÿ™ŸÖÿ™ÿπ ÿ®ÿßŸÑÿ≠ÿßÿ¨ÿ© ÿßŸÑÿ®ÿ≥Ÿäÿ∑ÿ©"
inputs = tokenizer(text, return_tensors="pt")

# Run inference
with torch.inference_mode():
    logits = model(**inputs).logits

pred = torch.argmax(logits, dim=-1).item()

print(f"Predicted Dialect: {model.config.id2label[pred]}")

✨ 主要特性

基於UBC-NLP/MARBERTv2模型微調，專為阿拉伯語優化。
能夠區分五種主要的阿拉伯書面方言區域，包括馬格里布、黎凡特、現代標準阿拉伯語、海灣和埃及方言。
適用於短阿拉伯文本片段的方言識別，數據來源廣泛，包括社交媒體、論壇和非正式寫作。

📚 詳細文檔

🔧 模型詳情

該模型是在多方言分類任務上對MARBERTv2進行微調得到的。MARBERTv2是一個基於Transformer的語言模型，針對阿拉伯語進行了優化。該模型可以區分以下五個主要的阿拉伯書面方言區域：

MAGHREB（北非方言）
LEV（黎凡特方言）
MSA（現代標準阿拉伯語）
GLF（海灣方言）
EGY（埃及阿拉伯語）

📄 標籤 (`id2label`)

模型預測以下五個類別之一：

{
  "0": "MAGHREB", // 馬格里布方言（西北非洲：摩洛哥、阿爾及利亞、突尼斯等）
  "1": "LEV",     // 黎凡特方言（黎巴嫩、敘利亞、約旦、巴勒斯坦）
  "2": "MSA",     // 現代標準阿拉伯語
  "3": "GLF",     // 海灣方言（沙特阿拉伯、阿聯酋、科威特等）
  "4": "EGY"      // 埃及方言
}

📦 訓練數據

模型使用了來自9個不同公開可用數據集的約850,000 + 阿拉伯語句子進行訓練，涵蓋了廣泛的阿拉伯書面方言。

按方言分佈情況：

方言	數量
GLF	253,553
LEV	243,025
MAGHREB	140,887
EGY	105,226
MSA	83,231

📊 使用的數據集

以下是訓練過程中使用或開發過程中考慮的數據集的詳細概述：

數據集	簡要描述	標註策略	提供的標籤	當前最優性能
MADAR Subtask - 1 (MADAR - 6)	一組`平行句子 (BTEC)`，涵蓋了阿拉伯世界`5個城市和現代標準阿拉伯語`在旅遊領域的方言`(每個城市10,000個句子)`	手動	5個阿拉伯城市 + 現代標準阿拉伯語	92.5% 準確率
MADAR Subtask - 1 (MADAR - 26)	一組`平行句子 (BTEC)`，涵蓋了阿拉伯世界`25個城市和現代標準阿拉伯語`在旅遊領域的方言`(每個城市2,000個句子)`	手動	25個阿拉伯城市 + 現代標準阿拉伯語	67.32% F1分數
DART	通過眾包標註的`25K條推文`，在五個主要阿拉伯方言組中分佈均衡	手動	5個阿拉伯地區	未知
ArSarcasm v1	來自`ASTD和SemEval數據集`的`10,547條推文`，用於諷刺檢測，並添加了方言信息	手動	4個阿拉伯地區 + 現代標準阿拉伯語	未知
ArSarcasm v2	ArSarcasm - v2數據集包含`15,548條推文`，是原始ArSarcasm數據集的擴展`(由ArScarcasm v1以及DAICT語料庫的部分內容和一些新推文組成)`	手動	4個阿拉伯地區 + 現代標準阿拉伯語	未知
IADD	確定、分析和過濾了`五個公開可用的語料庫`以構建IADD`(AOC、DART、PADIC、SHAMI和TSAC)`	無	5個地區和9個國家	未知
QADI	`540k條推文`（平均每個國家30k條），總共880萬個單詞	自動	18個阿拉伯國家	60.6%
AOC	阿拉伯在線評論數據集基於三家阿拉伯報紙的在線版本的讀者評論：`約旦的AlGhad、沙特阿拉伯的Al - Riyadh和埃及的Al - Youm Al - Sabe‘`	手動	3個阿拉伯地區 + 現代標準阿拉伯語	未知
NADI - 2020	來自100個阿拉伯省份和21個阿拉伯國家的`25,957條推文`	自動	100個省份和21個國家	6.39% - 26.78%

📄 許可證

本模型使用Apache - 2.0許可證。

🎉 致謝

UBC - NLP的MARBERTv2團隊
訓練中使用的阿拉伯方言數據集的貢獻者

📝 引用

如果您在研究或應用中使用此模型，請引用：

@misc{ibrahimamin_marbertv2_arabic_written_dialect_classifier,
  author = {Ibrahim Amin},
  title = {MARBERTv2 Arabic Written Dialect Classifier},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/IbrahimAmin/marbertv2-arabic-written-dialect-classifier}},
}