🚀 阿拉伯語BERT大型模型
這是一個預訓練的BERT大型阿拉伯語語言模型,可用於處理阿拉伯語相關的自然語言處理任務,為阿拉伯語的語義理解等工作提供強大支持。
如果您在工作中使用了此模型,請引用以下論文:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
✨ 主要特性
- 基於BERT架構,專為阿拉伯語設計,能有效處理阿拉伯語的語義理解、文本分類等任務。
- 預訓練語料豐富,涵蓋約82億個單詞,保證了模型的泛化能力。
📦 安裝指南
您可以通過安裝 torch
或 tensorflow
以及Huggingface庫 transformers
來使用此模型。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-large-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-large-arabic")
📚 詳細文檔
預訓練語料
arabic-bert-large
模型在約82億個單詞上進行了預訓練:
以及其他阿拉伯語資源,總計約95GB的文本。
關於訓練數據的說明:
- 我們最終版本的語料庫中包含一些非阿拉伯語單詞,由於去除這些單詞會影響命名實體識別(NER)等任務,因此我們沒有從句子中移除它們。
- 雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理,但由於阿拉伯語字符沒有大小寫之分,因此該模型沒有區分大小寫的版本。
- 語料庫和詞彙集並不侷限於現代標準阿拉伯語,還包含一些方言阿拉伯語。
預訓練細節
- 該模型使用Google BERT的GitHub 倉庫 在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
- 我們的預訓練過程遵循BERT的訓練設置,但有一些更改:訓練步數為300萬步,批量大小為128,而不是100萬步和批量大小256。
結果
有關模型性能的更多詳細信息或其他問題,請參考 Arabic - BERT。
📄 許可證
文檔中未提及相關許可證信息。
致謝
感謝Google為訓練過程提供免費的TPU,以及Huggingface在其服務器上託管此模型😊。