🚀 QARiB:QCRI阿拉伯語及方言BERT模型
QCRI阿拉伯語及方言BERT(QARiB)模型,在約4.2億條推文和約1.8億個文本句子的集合上進行訓練。該模型可用於解決阿拉伯語及方言相關的自然語言處理任務,為阿拉伯語的文本分析、情感識別等提供了強大的支持。
🚀 快速開始
你可以直接使用此模型進行掩碼語言建模或下一句預測,但它主要用於在下游任務上進行微調。你可以在模型中心查找針對你感興趣的任務進行微調後的版本。更多詳細信息,請參閱使用QARiB。
✨ 主要特性
- 豐富的訓練數據:模型在約4.2億條推文和約1.8億個文本句子上進行訓練,數據來源廣泛,包括通過Twitter API收集的推文以及來自阿拉伯語千兆詞庫、Abulkhair阿拉伯語語料庫和OPUS的文本數據。
- 優異的性能表現:在五項NLP下游任務(情感分析、情感檢測、命名實體識別、冒犯性語言檢測和方言識別)上的評估結果優於多語言BERT、AraBERT和ArabicBERT。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
你可以直接使用管道進行掩碼語言建模:
>>>from transformers import pipeline
>>>fill_mask = pipeline("fill-mask", model="./models/data60gb_86k")
>>> fill_mask("شو عندكم يا [MASK]")
[{'sequence': '[CLS] شو عندكم يا عرب [SEP]', 'score': 0.0990147516131401, 'token': 2355, 'token_str': 'عرب'},
{'sequence': '[CLS] شو عندكم يا جماعة [SEP]', 'score': 0.051633741706609726, 'token': 2308, 'token_str': 'جماعة'},
{'sequence': '[CLS] شو عندكم يا شباب [SEP]', 'score': 0.046871256083250046, 'token': 939, 'token_str': 'شباب'},
{'sequence': '[CLS] شو عندكم يا رفاق [SEP]', 'score': 0.03598872944712639, 'token': 7664, 'token_str': 'رفاق'},
{'sequence': '[CLS] شو عندكم يا ناس [SEP]', 'score': 0.031996358186006546, 'token': 271, 'token_str': 'ناس'}]
>>> fill_mask("قللي وشفيييك يرحم [MASK]")
[{'sequence': '[CLS] قللي وشفيييك يرحم والديك [SEP]', 'score': 0.4152909517288208, 'token': 9650, 'token_str': 'والديك'},
{'sequence': '[CLS] قللي وشفيييك يرحملي [SEP]', 'score': 0.07663793861865997, 'token': 294, 'token_str': '##لي'},
{'sequence': '[CLS] قللي وشفيييك يرحم حالك [SEP]', 'score': 0.0453166700899601, 'token': 2663, 'token_str': 'حالك'},
{'sequence': '[CLS] قللي وشفيييك يرحم امك [SEP]', 'score': 0.04390475153923035, 'token': 1942, 'token_str': 'امك'},
{'sequence': '[CLS] قللي وشفيييك يرحمونك [SEP]', 'score': 0.027349254116415977, 'token': 3283, 'token_str': '##ونك'}]
>>> fill_mask("وقام المدير [MASK]")
[
{'sequence': '[CLS] وقام المدير بالعمل [SEP]', 'score': 0.0678194984793663, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقام المدير بذلك [SEP]', 'score': 0.05191086605191231, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقام المدير بالاتصال [SEP]', 'score': 0.045264165848493576, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقام المدير بعمله [SEP]', 'score': 0.03732728958129883, 'token': 40486, 'token_str': 'بعمله'},
{'sequence': '[CLS] وقام المدير بالامر [SEP]', 'score': 0.0246378555893898, 'token': 29124, 'token_str': 'بالامر'}
]
>>> fill_mask("وقامت المديرة [MASK]")
[{'sequence': '[CLS] وقامت المديرة بذلك [SEP]', 'score': 0.23992691934108734, 'token': 984, 'token_str': 'بذلك'},
{'sequence': '[CLS] وقامت المديرة بالامر [SEP]', 'score': 0.108805812895298, 'token': 29124, 'token_str': 'بالامر'},
{'sequence': '[CLS] وقامت المديرة بالعمل [SEP]', 'score': 0.06639821827411652, 'token': 4230, 'token_str': 'بالعمل'},
{'sequence': '[CLS] وقامت المديرة بالاتصال [SEP]', 'score': 0.05613093823194504, 'token': 26096, 'token_str': 'بالاتصال'},
{'sequence': '[CLS] وقامت المديرة المديرة [SEP]', 'score': 0.021778125315904617, 'token': 41635, 'token_str': 'المديرة'}]
📚 詳細文檔
關於QARiB
QCRI阿拉伯語及方言BERT(QARiB)模型,在約4.2億條推文和約1.8億個文本句子的集合上進行訓練。對於推文數據,是使用Twitter API並通過語言過濾器 lang:ar
收集的。對於文本數據,則是來自阿拉伯語千兆詞庫、Abulkhair阿拉伯語語料庫和OPUS的組合。
bert-base-qarib60_1970k
- 數據大小:60GB
- 迭代次數:1970k
- 損失值:1.5708898
訓練QARiB
模型的訓練使用了谷歌原始的TensorFlow代碼,在谷歌雲TPU v2上進行。我們使用了谷歌雲存儲桶來持久存儲訓練數據和模型。更多詳細信息請參閱訓練QARiB。
評估結果
我們在五項NLP下游任務上對QARiB模型進行了評估:
- 情感分析
- 情感檢測
- 命名實體識別(NER)
- 冒犯性語言檢測
- 方言識別
QARiB模型取得的結果優於多語言BERT、AraBERT和ArabicBERT。
模型權重和詞彙表下載
可從Huggingface網站下載:https://huggingface.co/qarib/qarib/bert-base-qarib60_1970k
聯繫方式
Ahmed Abdelali、Sabit Hassan、Hamdy Mubarak、Kareem Darwish和Younes Samih
參考文獻
@article{abdelali2021pretraining,
title={Pre-Training BERT on Arabic Tweets: Practical Considerations},
author={Ahmed Abdelali and Sabit Hassan and Hamdy Mubarak and Kareem Darwish and Younes Samih},
year={2021},
eprint={2102.10684},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技術細節
模型的訓練使用了谷歌原始的TensorFlow代碼,在八核心的谷歌雲TPU v2上進行。我們使用了谷歌雲存儲桶來持久存儲訓練數據和模型。更多詳細信息請參閱訓練QARiB。
📄 許可證
原文檔未提及許可證信息。
屬性 |
詳情 |
模型類型 |
QCRI阿拉伯語及方言BERT(QARiB) |
訓練數據 |
約4.2億條推文和約1.8億個文本句子,推文數據通過Twitter API收集,文本數據來自阿拉伯語千兆詞庫、Abulkhair阿拉伯語語料庫和OPUS |
評估指標 |
F1 |
適用數據集 |
arabic_billion_words、open_subtitles、twitter |