🚀 QARiB: QCRIアラビア語および方言BERT
QCRIアラビア語および方言BERT(QARiB)モデルは、約4億2000万件のツイートと約1億8000万文のテキストコレクションでトレーニングされました。ツイートのデータは、Twitter APIを使用し、言語フィルター lang:ar
を適用して収集されました。テキストデータは、Arabic GigaWord、Abulkhair Arabic Corpus および OPUS からの組み合わせです。
bert-base-qarib60_1790k
プロパティ |
詳細 |
データサイズ |
60Gb |
反復回数 |
1790k |
損失 |
1.8764963 |
📦 インストール
モデルのトレーニングは、Google Cloud TPU v2上でGoogleのオリジナルTensorflowコードを使用して行われました。トレーニングデータとモデルの永続的な保存には、Google Cloud Storageバケットを使用しました。詳細は QARiBのトレーニング を参照してください。
💻 使用例
基本的な使用法
このモデルは、マスク付き言語モデリングまたは次文予測に直接使用できますが、主に下流タスクでファインチューニングすることを目的としています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。詳細は QARiBの使用 を参照してください。
>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")
>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'},
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'},
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'},
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'},
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}]
>>> fill_mask("قللي وشفيييك يرحم [MASK]")
[{'sequence': '[CLS] قللي وشفيييك يرحم والديك [SEP]', 'score': 0.4152909517288208, 'token': 9650, 'token_str': 'والديك'},
{'sequence': '[CLS] قللي وشفيييك يرحملي [SEP]', 'score': 0.07663793861865997, 'token': 294, 'token_str': '##لي'},
{'sequence': '[CLS] قللي وشفيييك يرحم حالك [SEP]', 'score': 0.0453166700899601, 'token': 2663, 'token_str': 'حالك'},
{'sequence': '[CLS] قللي وشفيييك يرحم امك [SEP]', 'score': 0.04390475153923035, 'token': 1942, 'token_str': 'امك'},
{'sequence': '[CLS] قللي وشفيييك يرحمونك [SEP]', 'score': 0.027349254116415977, 'token': 3283, 'token_str': '##ونك'}]
>>> fill_mask("وقام المدير [MASK]")
[
{'sequence': '[CLS] وقام المدير بالعمل [SEP]', 'score': 0.0678194984793663, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقام المدير بذلك [SEP]', 'score': 0.05191086605191231, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقام المدير بالاتصال [SEP]', 'score': 0.045264165848493576, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقام المدير بعمله [SEP]', 'score': 0.03732728958129883, 'token': 40486, 'token_str': 'بعمله'},
{'sequence': '[CLS] وقام المدير بالامر [SEP]', 'score': 0.0246378555893898, 'token': 29124, 'token_str': 'بالامر'}
]
>>> fill_mask("وقامت المديرة [MASK]")
[{'sequence': '[CLS] وقامت المديرة بذلك [SEP]', 'score': 0.23992691934108734, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقامت المديرة بالامر [SEP]', 'score': 0.108805812895298, 'token': 29124, 'token_str': 'بالامر'},
{'sequence': '[CLS] وقامت المديرة بالعمل [SEP]', 'score': 0.06639821827411652, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقامت المديرة بالاتصال [SEP]', 'score': 0.05613093823194504, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقامت المديرة المديرة [SEP]', 'score': 0.021778125315904617, 'token': 41635, 'token_str': 'المديرة'}]
🔧 技術詳細
モデルのトレーニングは、8コアのGoogle Cloud TPU v2上でGoogleのオリジナルTensorflowコードを使用して行われました。トレーニングデータとモデルの永続的な保存には、Google Cloud Storageバケットを使用しました。
📚 ドキュメント
QARiBモデルは、5つのNLP下流タスクで評価されました。
- センチメント分析
- 感情検出
- 固有表現認識(NER)
- 攻撃的言語検出
- 方言識別
QARiBモデルから得られた結果は、多言語BERT/AraBERT/ArabicBERTを上回っています。
モデルの重みと語彙のダウンロード
Huggingfaceサイトからダウンロードできます: https://huggingface.co/qarib/qarib/bert-base-qarib60_1790k
コンタクト
Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish and Younes Samih
参考文献
@article{abdelali2021pretraining,
title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
year={2021},
eprint={2102.10684},
archivePrefix={arXiv},
primaryClass={cs.CL}
}