bert-base-arabertv02開源阿拉伯語語言模型 - 專為阿拉伯語理解任務優化

首頁

Bert Base Arabertv02

由aubmindlab開發

AraBERT是基於BERT架構的阿拉伯語預訓練語言模型，專門針對阿拉伯語理解任務優化。

大型語言模型阿拉伯語#阿拉伯語BERT #預分段文本處理 #多方言支持

下載量 666.17k

發布時間 : 3/2/2022

模型概述

AraBERT是為阿拉伯語設計的預訓練語言模型，基於BERT架構，在多種阿拉伯語NLP任務上表現出色，包括情感分析、命名實體識別和問答系統。

模型特點

阿拉伯語優化

專門針對阿拉伯語特性進行優化，包括處理阿拉伯語特有的前綴和後綴分詞問題

預分段處理

使用Farasa分詞器對文本進行預分段處理，提高模型理解能力

大規模訓練數據

使用超過200M句子(8.6B詞)的阿拉伯語數據進行訓練

多版本支持

提供基礎版和大型版，以及針對Twitter數據的特別版本

模型能力

阿拉伯語文本理解

情感分析

命名實體識別

問答系統

文本填充

使用案例

情感分析

阿拉伯語評論情感分析

分析阿拉伯語社交媒體評論或產品評論的情感傾向

在多個阿拉伯語情感分析數據集上表現優於mBERT

命名實體識別

阿拉伯語文本實體識別

識別阿拉伯語文本中的人名、地名等實體

在ANERcorp數據集上取得良好效果

問答系統

阿拉伯語閱讀理解

回答基於阿拉伯語文章的提問

在Arabic-SQuAD和ARCD數據集上表現良好

🚀 AraBERT v1 & v2：用於阿拉伯語理解的BERT預訓練模型

AraBERT 是一個基於谷歌的BERT架構的阿拉伯語預訓練語言模型。AraBERT採用了與BERT-Base相同的配置。更多細節可在 AraBERT論文和 AraBERT線上活動中查看。

該模型有兩個版本，即AraBERTv0.1和AraBERTv1，區別在於AraBERTv1使用的是預分割文本，其中前綴和後綴是使用 Farasa分割器進行分割的。

我們在不同的下游任務上對AraBERT模型進行了評估，並將其與 mBERT 以及其他先進模型進行了比較（就我們所知）。這些任務包括在6個不同數據集上進行情感分析（HARD、ASTD-Balanced、ArsenTD-Lev、LABR）、使用 ANERcorp 進行命名實體識別，以及在 Arabic-SQuAD和ARCD 上進行阿拉伯語問答。

✨ 主要特性

AraBERTv2

新增特性

AraBERT現在有4個新變體，用以取代舊的v1版本：更多細節可在AraBERT文件夾、README 和 AraBERT論文中查看。

模型	HuggingFace模型名稱	大小（MB/參數）	預分割	數據集（句子數/大小/單詞數）
AraBERTv0.2-base	bert-base-arabertv02	543MB / 136M	否	2億 / 77GB / 86億
AraBERTv0.2-large	bert-large-arabertv02	1.38G / 3.71億	否	2億 / 77GB / 86億
AraBERTv2-base	bert-base-arabertv2	543MB / 136M	是	2億 / 77GB / 86億
AraBERTv2-large	bert-large-arabertv2	1.38G / 3.71億	是	2億 / 77GB / 86億
AraBERTv0.2-Twitter-base	bert-base-arabertv02-twitter	543MB / 136M	否	與v02相同 + 6000萬條多方言推文
AraBERTv0.2-Twitter-large	bert-large-arabertv02-twitter	1.38G / 3.71億	否	與v02相同 + 6000萬條多方言推文
AraBERTv0.1-base	bert-base-arabertv01	543MB / 136M	否	7700萬 / 23GB / 27億
AraBERTv1-base	bert-base-arabert	543MB / 136M	是	7700萬 / 23GB / 27億

所有模型都可以在 HuggingFace 模型頁面的 aubmindlab 名下找到。檢查點有PyTorch、TF2和TF1格式。

更優的預處理和新詞彙表

我們發現了AraBERTv1的詞塊（wordpiece）詞彙表存在一個問題。該問題源於在學習詞塊詞彙表時，標點符號和數字仍然與單詞相連。現在，我們會在數字和字符之間以及標點符號周圍插入空格。

新的詞彙表是使用 tokenizers 庫中的 BertWordpieceTokenizer 學習得到的，現在應該支持 transformers 庫中的快速分詞器實現。

注意：所有舊的BERT代碼應該都能與新的BERT兼容，只需更改模型名稱並查看新的預處理函數即可。 請閱讀預處理函數使用說明部分。

更大的數據集和更多的計算資源

我們使用了約3.5倍的數據，並進行了更長時間的訓練。有關數據集來源，請參閱數據集部分。

模型	硬件	序列長度為（128 / 512）的示例數量	128（批量大小/步數）	512（批量大小/步數）	總步數	總時間（天）
AraBERTv0.2-base	TPUv3-8	4.2億 / 2.07億	2560 / 100萬	384 / 200萬	300萬	-
AraBERTv0.2-large	TPUv3-128	4.2億 / 2.07億	13440 / 25萬	2056 / 30萬	55萬	7
AraBERTv2-base	TPUv3-8	4.2億 / 2.07億	2560 / 100萬	384 / 200萬	300萬	-
AraBERTv2-large	TPUv3-128	5.2億 / 2.45億	13440 / 25萬	2056 / 30萬	55萬	7
AraBERT-base (v1/v0.1)	TPUv2-8	-	512 / 90萬	128 / 30萬	120萬	4

數據集

用於新AraBERT模型的預訓練數據也用於阿拉伯語 GPT2和ELECTRA。

該數據集包含77GB數據，即2億零95,961行、86億5594萬8860個單詞或822億3298萬8358個字符（在應用Farasa分割之前）。

對於新數據集，我們在之前用於AraBERTv1的數據集基礎上，添加了未打亂順序的OSCAR語料庫（經過徹底過濾），但不包括之前爬取的網站：

經過過濾的未打亂順序的OSCAR語料庫。
2020年9月1日的阿拉伯語維基百科轉儲
15億單詞的阿拉伯語語料庫
OSIAN語料庫
Assafir新聞文章。非常感謝Assafir為我們提供數據。

📦 安裝指南

建議在對任何數據集進行訓練/測試之前應用我們的預處理函數。

安裝arbert Python包，以便為AraBERT v1和v2分割文本或清理數據 pip install arabert

💻 使用示例

基礎用法

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/bert-large-arabertv02"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا: إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)

>>> output: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري

📚 詳細文檔

TensorFlow 1.x模型

TF1.x模型可在HuggingFace模型倉庫中找到。你可以按以下方式下載它們：

通過git-lfs：在一個倉庫中克隆所有模型

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz

其中 MODEL_NAME 是 aubmindlab 名下的任何模型。

通過 wget：
- 訪問huggingface.co/models/aubmindlab/MODEL_NAME上的tf1_model.tar.gz文件。
- 複製 oid sha256。
- 然後運行 wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/INSERT_THE_SHA_HERE（例如，對於 aragpt2-base：wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/3766fc03d7c2593ff2fb991d275e96b81b0ecb2098b71ff315611d052ce65248）

引用說明

如果您使用了此模型，請按以下方式引用我們： Google學術的Bibtex引用有誤（缺少名稱），請使用以下內容：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

致謝

感謝TensorFlow研究雲（TFRC）免費提供雲TPU，沒有這個項目我們無法完成這項工作；感謝 AUB MIND實驗室成員的持續支持。同時感謝 Yakshof 和Assafir提供的數據和存儲訪問權限。還要感謝Habib Rahal（https://www.behance.net/rahalhabib）為AraBERT設計了形象。