🚀 MARBERTv2アラビア語書面方言分類器
このモデルは、アラビア語の書面方言分類を行うためのツールです。事前学習モデルを微調整して作成され、生テキストから現代標準アラビア語(MSA)と4種類の地域アラビア方言を識別することができます。方言識別、言語研究、方言対応の自然言語処理システムなどのタスクに適用できます。
🚀 クイックスタート
依存関係のインストール
transformers
ライブラリがインストールされていることを確認してください。
pip install transformers torch
サンプルコードの実行
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "IbrahimAmin/marbertv2-arabic-written-dialect-classifier"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "الدنيا مش مستاهلة تجري كده، خد وقتك واستمتع بالحاجة البسيطة"
inputs = tokenizer(text, return_tensors="pt")
with torch.inference_mode():
logits = model(**inputs).logits
pred = torch.argmax(logits, dim=-1).item()
print(f"Predicted Dialect: {model.config.id2label[pred]}")
✨ 主な機能
UBC-NLP/MARBERTv2
モデルを微調整しており、アラビア語に最適化されています。
- マグレブ、レバント、現代標準アラビア語、湾岸、エジプトの方言を含む、5つの主要なアラビア語書面方言地域を区別することができます。
- 広範なデータソース(ソーシャルメディア、フォーラム、非公式な文章など)からの短いアラビア語テキスト断片の方言識別に適しています。
📚 ドキュメント
🔧 モデルの詳細
このモデルは、多方言分類タスクでMARBERTv2を微調整したものです。MARBERTv2は、アラビア語用に最適化されたTransformerベースの言語モデルです。このモデルは、以下の5つの主要なアラビア語書面方言地域を区別することができます。
- MAGHREB(北アフリカ方言)
- LEV(レバント方言)
- MSA(現代標準アラビア語)
- GLF(湾岸方言)
- EGY(エジプト方言)
📄 ラベル (id2label
)
モデルは以下の5つのクラスのいずれかを予測します。
{
"0": "MAGHREB",
"1": "LEV",
"2": "MSA",
"3": "GLF",
"4": "EGY"
}
📦 学習データ
このモデルは、9つの異なる公開データセットから約850,000以上のアラビア語文を使用して学習されており、広範なアラビア語書面方言をカバーしています。
方言別の分布
属性 |
詳細 |
モデルタイプ |
MARBERTv2を微調整した多方言分類モデル |
学習データ |
9つの公開データセットからの約850,000以上のアラビア語文 |
方言 |
数量 |
GLF |
253,553 |
LEV |
243,025 |
MAGHREB |
140,887 |
EGY |
105,226 |
MSA |
83,231 |
📊 使用したデータセット
以下は、学習過程で使用された、または開発過程で考慮されたデータセットの詳細な概要です。
データセット |
概要 |
ラベリング方法 |
提供されるラベル |
現時点の最高性能 |
MADAR Subtask - 1 (MADAR - 6) |
アラブ世界の5つの都市と現代標準アラビア語 の観光分野の方言をカバーする平行文 (BTEC) のセット(都市ごとに10,000文) |
手動 |
5つのアラブ都市 + 現代標準アラビア語 |
92.5% 正解率 |
MADAR Subtask - 1 (MADAR - 26) |
アラブ世界の25の都市と現代標準アラビア語 の観光分野の方言をカバーする平行文 (BTEC) のセット(都市ごとに2,000文) |
手動 |
25のアラブ都市 + 現代標準アラビア語 |
67.32% F1スコア |
DART |
5つの主要なアラビア方言グループに均等に分布した25K件のツイート を众包によってラベリングしたもの |
手動 |
5つのアラブ地域 |
不明 |
ArSarcasm v1 |
ASTDとSemEvalデータセット からの10,547件のツイート で、皮肉検出用に方言情報が追加されています |
手動 |
4つのアラブ地域 + 現代標準アラビア語 |
不明 |
ArSarcasm v2 |
ArSarcasm - v2データセットは15,548件のツイート を含み、元のArSarcasmデータセットの拡張版です(ArScarcasm v1、DAICTコーパスの一部、およびいくつかの新しいツイートから構成されています) |
手動 |
4つのアラブ地域 + 現代標準アラビア語 |
不明 |
IADD |
5つの公開コーパス を特定、分析、フィルタリングしてIADDを構築しました(AOC、DART、PADIC、SHAMI、TSAC) |
なし |
5つの地域と9つの国 |
不明 |
QADI |
540k件のツイート (国ごとに平均30k件)、合計880万語 |
自動 |
18のアラブ国家 |
60.6% |
AOC |
アラビア語オンラインコメントデータセットは、3つのアラブ新聞のオンライン版の読者コメントに基づいています:ヨルダンのAlGhad、サウジアラビアのAl - Riyadh、エジプトのAl - Youm Al - Sabe‘ |
手動 |
3つのアラブ地域 + 現代標準アラビア語 |
不明 |
NADI - 2020 |
100のアラブ州と21のアラブ国家からの25,957件のツイート |
自動 |
100の州と21の国 |
6.39% - 26.78% |
📄 ライセンス
このモデルは、Apache - 2.0ライセンスを使用しています。
🎉 謝辞
- UBC - NLPのMARBERTv2チーム
- 学習に使用されたアラビア方言データセットの貢献者
📝 引用
このモデルを研究またはアプリケーションで使用する場合は、以下を引用してください。
@misc{ibrahimamin_marbertv2_arabic_written_dialect_classifier,
author = {Ibrahim Amin},
title = {MARBERTv2 Arabic Written Dialect Classifier},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/IbrahimAmin/marbertv2-arabic-written-dialect-classifier}},
}