Bert Base Arabic

B

Bert Base Arabic

由asafaya開發

預訓練的阿拉伯語BERT基礎語言模型，支持現代標準阿拉伯語和部分方言

大型語言模型阿拉伯語#阿拉伯語預訓練 #BERT架構 #社交媒體分析

下載量 14.40k

發布時間 : 3/2/2022

模型概述

該模型是基於BERT架構的阿拉伯語預訓練語言模型，適用於各種阿拉伯語自然語言處理任務。

模型特點

大規模預訓練數據

使用約82億詞的阿拉伯語語料進行訓練，包含OSCAR和維基百科數據

方言支持

不僅支持現代標準阿拉伯語，也包含部分阿拉伯語方言內容

TPU優化訓練

使用谷歌TPU v3-8進行300萬步訓練，優化了訓練效率

模型能力

文本理解

文本生成

命名實體識別

文本分類

使用案例

社交媒體分析

冒犯性言論識別

用於識別社交媒體中的冒犯性阿拉伯語內容

在SemEval-2020 Task 12中取得良好表現

信息提取

阿拉伯語NER

用於阿拉伯語命名實體識別任務

🚀 阿拉伯語BERT模型

這是一個為阿拉伯語預訓練的BERT基礎語言模型，可用於處理阿拉伯語相關的自然語言處理任務。

如果您在工作中使用了此模型，請引用以下論文：

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

🚀 快速開始

加載預訓練模型

您可以通過安裝 torch 或 tensorflow 以及Huggingface庫 transformers 來使用此模型。您可以像這樣初始化並直接使用它：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-base-arabic")

✨ 主要特性

基於BERT架構，專為阿拉伯語設計，可用於多種自然語言處理任務。
預訓練語料豐富，涵蓋了多種阿拉伯語資源，包括OSCAR和維基百科。

📦 安裝指南

安裝 torch 或 tensorflow 以及Huggingface庫 transformers 即可使用該模型。

📚 詳細文檔

預訓練語料庫

arabic-bert-base 模型在約82億個單詞上進行了預訓練：

阿拉伯語版本的 OSCAR - 從 Common Crawl 中篩選而來
最新的阿拉伯語維基百科轉儲

以及其他阿拉伯語資源，總計約95GB的文本。

關於訓練數據的說明：

我們最終版本的語料庫包含一些非阿拉伯語單詞，我們沒有從句子中刪除這些單詞，因為這會影響一些任務，如命名實體識別（NER）。
雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理，但由於阿拉伯語字符沒有大小寫之分，因此該模型沒有大小寫版本。
語料庫和詞彙集不限於現代標準阿拉伯語，它們也包含一些方言阿拉伯語。

預訓練細節

該模型使用Google BERT的GitHub 倉庫在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
我們的預訓練過程遵循BERT的訓練設置，但有一些更改：訓練300萬個訓練步驟，批量大小為128，而不是100萬個訓練步驟，批量大小為256。

模型性能

有關模型性能的更多詳細信息或任何其他問題，請參考 Arabic - BERT。

🔧 技術細節

訓練環境

訓練使用Google BERT的GitHub倉庫代碼。
硬件：單個TPU v3 - 8（由TFRC免費提供）。

訓練參數

訓練步驟：300萬步。
批量大小：128。

📄 許可證

文檔未提及許可證信息。

💡 使用建議

在使用該模型處理阿拉伯語任務時，由於語料庫中包含非阿拉伯語單詞和方言阿拉伯語，對於一些特定任務可能需要進行額外的處理和調整。

致謝

感謝Google為訓練過程提供免費的TPU，以及Huggingface在其服務器上託管此模型 😊

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase