🚀 阿拉伯語BERT迷你模型
這是一個預訓練的阿拉伯語BERT迷你語言模型,可用於處理阿拉伯語相關的自然語言處理任務。
如果您在工作中使用了此模型,請引用以下論文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
🚀 快速開始
要使用這個模型,您需要安裝torch
或tensorflow
以及Huggingface庫transformers
。然後可以按照以下方式直接初始化使用:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-mini-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-mini-arabic")
✨ 主要特性
- 預訓練語料豐富:在約82億個單詞上進行預訓練,涵蓋多種阿拉伯語資源。
- 訓練細節優化:訓練過程在單臺TPU v3 - 8上進行,訓練步驟和批次大小有調整。
📦 安裝指南
您需要安裝torch
或tensorflow
以及Huggingface庫transformers
,可使用以下命令安裝:
pip install torch tensorflow transformers
📚 詳細文檔
預訓練語料
arabic-bert-mini
模型在約82億個單詞上進行了預訓練,使用的語料包括:
以及其他阿拉伯語資源,總計約95GB的文本。
訓練數據說明:
- 最終的語料庫中包含一些非阿拉伯語單詞,由於去除這些單詞會影響命名實體識別(NER)等任務,因此未從句子中移除。
- 儘管在預處理步驟中對非阿拉伯語字符進行了小寫處理,但由於阿拉伯語字符沒有大小寫之分,所以該模型沒有大小寫版本。
- 語料庫和詞彙集不限於現代標準阿拉伯語,還包含一些方言阿拉伯語。
預訓練細節
- 該模型使用Google BERT的GitHub 倉庫在由TFRC免費提供的單臺TPU v3 - 8上進行訓練。
- 預訓練過程遵循BERT的訓練設置,但有一些調整:訓練300萬個步驟,批次大小為128,而不是100萬個步驟,批次大小為256。
模型結果
有關模型性能的更多詳細信息或其他問題,請參考Arabic - BERT。
📄 許可證
文檔未提及相關許可證信息。
致謝
感謝Google為訓練過程提供免費的TPU,以及Huggingface在其服務器上託管此模型😊