bert-large-arabertv2開源阿拉伯語模型 - 助力阿拉伯語自然語言理解任務

首頁

Bert Large Arabertv2

由aubmindlab開發

AraBERT是基於谷歌BERT架構的阿拉伯語預訓練語言模型，專為阿拉伯語自然語言理解任務設計。

大型語言模型阿拉伯語#阿拉伯語理解 #預訓練模型 #多方言支持

下載量 334

發布時間 : 3/2/2022

模型概述

AraBERT是一個針對阿拉伯語優化的BERT模型，通過改進預處理和更大規模的數據訓練，提升了在阿拉伯語NLP任務中的表現。

模型特點

改進的預處理

解決了標點符號和數字與單詞粘連的問題，通過插入空格優化了分詞效果。

更大規模的數據訓練

使用了約3.5倍的數據量，包括維基百科、OSCAR語料庫等，提升了模型性能。

多版本支持

提供base和large版本，以及針對Twitter數據的變體，滿足不同需求。

模型能力

阿拉伯語文本理解

情感分析

命名實體識別

問答系統

使用案例

情感分析

社交媒體情感分析

分析阿拉伯語社交媒體內容的情感傾向。

在HARD、ASTD-Balanced等數據集上表現優異。

命名實體識別

新聞實體識別

從阿拉伯語新聞中識別命名實體。

基於ANERcorp數據集評估。

問答系統

阿拉伯語問答

回答基於阿拉伯語文本的問題。

在Arabic-SQuAD和ARCD數據集上評估。

🚀 AraBERT v1 & v2：用於阿拉伯語理解的BERT預訓練模型

AraBERT 是一個基於谷歌的BERT架構的阿拉伯語預訓練語言模型，採用了與BERT - Base相同的配置。更多詳細信息可查看 AraBERT論文和 AraBERT線上研討會。

該模型有兩個版本，AraBERTv0.1和AraBERTv1，區別在於AraBERTv1使用預分割文本，其中前綴和後綴使用 Farasa分割器進行分割。

我們在不同的下游任務中對AraBERT模型進行評估，並將其與 mBERT 以及其他最先進的模型進行比較（就我們所知）。這些任務包括在6個不同數據集上的情感分析（HARD、ASTD - Balanced、ArsenTD - Lev、LABR）、使用 ANERcorp 進行命名實體識別，以及在 Arabic - SQuAD和ARCD 上進行阿拉伯語問答。

🚀 快速開始

安裝與預處理

建議在任何數據集上進行訓練/測試之前應用我們的預處理函數。

pip install arabert

示例代碼

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/bert-large-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>>"و+ لن نبالغ إذا قل +نا إن هاتف أو كمبيوتر ال+ مكتب في زمن +نا هذا ضروري"

✨ 主要特性

多版本選擇

AraBERTv2

新增4種變體：取代舊的v1版本，提供更多選擇以滿足不同需求。 | 模型 | HuggingFace模型名稱 | 大小 (MB/參數) | 預分割 | 數據集 (句子/大小/單詞數) | |------|------|------|------|------| | AraBERTv0.2 - base | bert - base - arabertv02 | 543MB / 136M | 否 | 200M / 77GB / 8.6B | | AraBERTv0.2 - large | bert - large - arabertv02 | 1.38G / 371M | 否 | 200M / 77GB / 8.6B | | AraBERTv2 - base | bert - base - arabertv2 | 543MB / 136M | 是 | 200M / 77GB / 8.6B | | AraBERTv2 - large | bert - large - arabertv2 | 1.38G / 371M | 是 | 200M / 77GB / 8.6B | | AraBERTv0.2 - Twitter - base | bert - base - arabertv02 - twitter | 543MB / 136M | 否 | 與v02相同 + 60M多方言推文 | | AraBERTv0.2 - Twitter - large | bert - large - arabertv02 - twitter | 1.38G / 371M | 否 | 與v02相同 + 60M多方言推文 | | AraBERTv0.1 - base | bert - base - arabertv01 | 543MB / 136M | 否 | 77M / 23GB / 2.7B | | AraBERTv1 - base | bert - base - arabert | 543MB / 136M | 是 | 77M / 23GB / 2.7B |

所有模型都可在 HuggingFace 模型頁面的 aubmindlab 下找到，檢查點有PyTorch、TF2和TF1格式。

更好的預處理和新詞彙表

解決詞彙問題：識別出AraBERTv1的詞塊詞彙表存在的問題，即學習詞塊詞彙表時標點和數字仍與單詞相連。現在在數字和字符之間以及標點字符周圍插入空格。
支持快速分詞器：新詞彙表使用 tokenizers 庫中的 BertWordpieceTokenizer 學習，支持 transformers 庫的快速分詞器實現。

更大的數據集和更多的計算資源

數據量增加：使用了約3.5倍的數據，並進行了更長時間的訓練。 | 模型 | 硬件 | 序列長度為(128 / 512)的示例數量 | 128 (批量大小/步數) | 512 (批量大小/步數) | 總步數 | 總時間 (天) | |------|------|------|------|------|------|------| | AraBERTv0.2 - base | TPUv3 - 8 | 420M / 207M | 2560 / 1M | 384 / 2M | 3M | - | | AraBERTv0.2 - large | TPUv3 - 128 | 420M / 207M | 13440 / 250K | 2056 / 300K | 550K | 7 | | AraBERTv2 - base | TPUv3 - 8 | 420M / 207M | 2560 / 1M | 384 / 2M | 3M | - | | AraBERTv2 - large | TPUv3 - 128 | 520M / 245M | 13440 / 250K | 2056 / 300K | 550K | 7 | | AraBERT - base (v1/v0.1) | TPUv2 - 8 | - | 512 / 900K | 128 / 300K | 1.2M | 4 |

📦 安裝指南

安裝arobert包

pip install arabert

下載TensorFlow 1.x模型

通過git - lfs

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz

其中 MODEL_NAME 是 aubmindlab 下的任何模型。

通過 `wget`

訪問huggingface.co/models/aubmindlab/MODEL_NAME上的tf1_model.tar.gz文件。
複製 oid sha256。
運行 wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/INSERT_THE_SHA_HERE（例如，對於 aragpt2 - base：wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/3766fc03d7c2593ff2fb991d275e96b81b0ecb2098b71ff315611d052ce65248）

💻 使用示例

基礎用法

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/bert-large-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
processed_text = arabert_prep.preprocess(text)
print(processed_text)

📚 詳細文檔

數據集

預訓練新的AraBERT模型所使用的數據也用於阿拉伯語的 GPT2和ELECTRA。數據集包含77GB、200,095,961行、8,655,948,860個單詞或82,232,988,358個字符（應用Farasa分割之前）。新數據集在之前AraBERTv1使用的數據集基礎上，添加了經過徹底過濾的未打亂的OSCAR語料庫，但不包括之前爬取的網站：

未打亂並經過過濾的OSCAR語料庫。
2020/09/01的阿拉伯語維基百科轉儲
15億單詞的阿拉伯語語料庫
OSIAN語料庫
Assafir新聞文章。非常感謝Assafir提供數據。

預處理

建議在任何數據集上進行訓練/測試之前應用我們的預處理函數。安裝 arobert 包後，可按如下方式使用：

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/bert-large-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)

🔧 技術細節

模型架構

基於谷歌的BERT架構，採用BERT - Base配置。

訓練設置

不同版本的模型在不同的硬件上進行訓練，使用不同的批量大小和步數，以充分利用計算資源並提高模型性能。

📄 許可證

文檔未提及相關許可證信息。

📖 引用格式

如果使用了此模型，請按以下格式引用：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

🙏 致謝

感謝TensorFlow研究雲（TFRC）免費提供Cloud TPU，沒有這個項目我們無法完成；感謝 AUB MIND實驗室成員的持續支持；感謝 Yakshof 和Assafir提供數據和存儲訪問；感謝Habib Rahal（https://www.behance.net/rahalhabib）為AraBERT設計形象。