🚀 阿拉伯語BERT中型模型
這是一個預訓練的BERT中型阿拉伯語語言模型。它能夠為阿拉伯語相關的自然語言處理任務提供強大的支持,幫助用戶更高效地處理和分析阿拉伯語文本。
🚀 快速開始
你可以通過安裝 torch
或 tensorflow
以及Huggingface庫 transformers
來使用該模型。以下是初始化並使用該模型的示例代碼:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")
✨ 主要特性
- 基於BERT架構,專為阿拉伯語設計,能有效處理阿拉伯語自然語言處理任務。
- 預訓練語料豐富,涵蓋多種阿拉伯語資源,包括來自Common Crawl的過濾數據和維基百科數據。
📦 安裝指南
若要使用此模型,需要安裝 torch
或 tensorflow
以及Huggingface庫 transformers
。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")
📚 詳細文檔
預訓練語料庫
arabic-bert-medium
模型在約82億個單詞上進行了預訓練,使用的語料包括:
以及其他阿拉伯語資源,總計約95GB的文本。
關於訓練數據的說明:
- 最終版本的語料庫中包含一些非阿拉伯語單詞,由於去除這些單詞會影響命名實體識別(NER)等任務,因此未從句子中移除。
- 雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理,但由於阿拉伯語字符沒有大小寫之分,所以該模型沒有區分大小寫的版本。
- 語料庫和詞彙集不限於現代標準阿拉伯語,還包含一些方言阿拉伯語。
預訓練細節
- 該模型使用Google BERT的GitHub 倉庫 在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
- 預訓練過程遵循BERT的訓練設置,但有一些更改:訓練了300萬個步驟,批量大小為128,而不是100萬個步驟,批量大小為256。
模型性能
如需瞭解模型性能的更多詳細信息或其他問題,請參考 Arabic - BERT。
🔧 技術細節
- 訓練使用Google BERT的代碼倉庫,藉助TPU v3 - 8進行加速。
- 調整了訓練步驟和批量大小,以適應阿拉伯語語料的特點。
📄 許可證
如果你在工作中使用此模型,請引用以下論文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
致謝
感謝Google為訓練過程提供免費的TPU,以及Huggingface在其服務器上託管此模型😊。
屬性 |
詳情 |
模型類型 |
預訓練的BERT中型阿拉伯語語言模型 |
訓練數據 |
阿拉伯語版本的OSCAR(從Common Crawl過濾而來)、阿拉伯語維基百科轉儲數據及其他阿拉伯語資源,總計約95GB文本 |