🚀 阿拉伯語BERT模型
這是一個為阿拉伯語預訓練的BERT基礎語言模型,可用於處理阿拉伯語相關的自然語言處理任務。
如果您在工作中使用了此模型,請引用以下論文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
🚀 快速開始
加載預訓練模型
您可以通過安裝 torch
或 tensorflow
以及Huggingface庫 transformers
來使用此模型。您可以像這樣初始化並直接使用它:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-base-arabic")
✨ 主要特性
- 基於BERT架構,專為阿拉伯語設計,可用於多種自然語言處理任務。
- 預訓練語料豐富,涵蓋了多種阿拉伯語資源,包括OSCAR和維基百科。
📦 安裝指南
安裝 torch
或 tensorflow
以及Huggingface庫 transformers
即可使用該模型。
📚 詳細文檔
預訓練語料庫
arabic-bert-base
模型在約82億個單詞上進行了預訓練:
以及其他阿拉伯語資源,總計約95GB的文本。
關於訓練數據的說明:
- 我們最終版本的語料庫包含一些非阿拉伯語單詞,我們沒有從句子中刪除這些單詞,因為這會影響一些任務,如命名實體識別(NER)。
- 雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理,但由於阿拉伯語字符沒有大小寫之分,因此該模型沒有大小寫版本。
- 語料庫和詞彙集不限於現代標準阿拉伯語,它們也包含一些方言阿拉伯語。
預訓練細節
- 該模型使用Google BERT的GitHub 倉庫 在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
- 我們的預訓練過程遵循BERT的訓練設置,但有一些更改:訓練300萬個訓練步驟,批量大小為128,而不是100萬個訓練步驟,批量大小為256。
模型性能
有關模型性能的更多詳細信息或任何其他問題,請參考 Arabic - BERT。
🔧 技術細節
訓練環境
- 訓練使用Google BERT的GitHub倉庫代碼。
- 硬件:單個TPU v3 - 8(由TFRC免費提供)。
訓練參數
📄 許可證
文檔未提及許可證信息。
💡 使用建議
在使用該模型處理阿拉伯語任務時,由於語料庫中包含非阿拉伯語單詞和方言阿拉伯語,對於一些特定任務可能需要進行額外的處理和調整。
致謝
感謝Google為訓練過程提供免費的TPU,以及Huggingface在其服務器上託管此模型 😊