bert-medium-arabic開源阿拉伯語語言模型 - 基於海量文本訓練助力內容理解表達

首頁

Bert Medium Arabic

由asafaya開發

預訓練的阿拉伯語BERT中型語言模型，基於約82億詞的阿拉伯語文本資源訓練

大型語言模型阿拉伯語#阿拉伯語NLP #社交媒體內容分析 #多方言支持

下載量 66

發布時間 : 3/2/2022

模型概述

該模型是一個預訓練的阿拉伯語BERT中型語言模型，主要用於自然語言處理任務，如文本分類、命名實體識別等。

模型特點

多源訓練數據

基於OSCAR阿拉伯語版和維基百科等多源阿拉伯語文本資源訓練，總計約95GB。

方言支持

不僅包含現代標準阿拉伯語，也包含部分方言阿拉伯語。

優化訓練

訓練參數調整：總步數300萬（batch size=128），而非原版BERT的100萬步（batch size=256）。

模型能力

文本分類

命名實體識別

文本生成

語言理解

使用案例

社交媒體分析

冒犯性言論識別

用於識別社交媒體上的冒犯性言論。

在SemEval-2020任務12中表現良好。

自然語言處理

文本分類

用於阿拉伯語文本的分類任務。

命名實體識別

用於識別阿拉伯語文本中的命名實體。

🚀 阿拉伯語BERT中型模型

這是一個預訓練的BERT中型阿拉伯語語言模型。它能夠為阿拉伯語相關的自然語言處理任務提供強大的支持，幫助用戶更高效地處理和分析阿拉伯語文本。

🚀 快速開始

你可以通過安裝 torch 或 tensorflow 以及Huggingface庫 transformers 來使用該模型。以下是初始化並使用該模型的示例代碼：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")

✨ 主要特性

基於BERT架構，專為阿拉伯語設計，能有效處理阿拉伯語自然語言處理任務。
預訓練語料豐富，涵蓋多種阿拉伯語資源，包括來自Common Crawl的過濾數據和維基百科數據。

📦 安裝指南

若要使用此模型，需要安裝 torch 或 tensorflow 以及Huggingface庫 transformers。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")

📚 詳細文檔

預訓練語料庫

arabic-bert-medium 模型在約82億個單詞上進行了預訓練，使用的語料包括：

阿拉伯語版本的 OSCAR - 從 Common Crawl 過濾而來。
最新的阿拉伯語維基百科轉儲數據。

以及其他阿拉伯語資源，總計約95GB的文本。

關於訓練數據的說明：

最終版本的語料庫中包含一些非阿拉伯語單詞，由於去除這些單詞會影響命名實體識別（NER）等任務，因此未從句子中移除。
雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理，但由於阿拉伯語字符沒有大小寫之分，所以該模型沒有區分大小寫的版本。
語料庫和詞彙集不限於現代標準阿拉伯語，還包含一些方言阿拉伯語。

預訓練細節

該模型使用Google BERT的GitHub 倉庫在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
預訓練過程遵循BERT的訓練設置，但有一些更改：訓練了300萬個步驟，批量大小為128，而不是100萬個步驟，批量大小為256。

模型性能

如需瞭解模型性能的更多詳細信息或其他問題，請參考 Arabic - BERT。

🔧 技術細節

訓練使用Google BERT的代碼倉庫，藉助TPU v3 - 8進行加速。
調整了訓練步驟和批量大小，以適應阿拉伯語語料的特點。

📄 許可證

如果你在工作中使用此模型，請引用以下論文：

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

致謝

感謝Google為訓練過程提供免費的TPU，以及Huggingface在其服務器上託管此模型😊。

屬性	詳情
模型類型	預訓練的BERT中型阿拉伯語語言模型
訓練數據	阿拉伯語版本的OSCAR（從Common Crawl過濾而來）、阿拉伯語維基百科轉儲數據及其他阿拉伯語資源，總計約95GB文本