bert - base - arabertv02 - twitter開源模型 - 優化阿拉伯語方言及推文處理，支持表情和常用詞！

首頁

Bert Base Arabertv02 Twitter

由aubmindlab開發

針對阿拉伯語方言及推文優化的BERT模型，在6000萬條阿拉伯語推文上進行了MLM任務預訓練，新增表情符號和常用詞彙支持。

大型語言模型

Transformers

阿拉伯語#阿拉伯語推文優化 #多方言支持 #表情符號增強

下載量 2,148

發布時間 : 3/2/2022

模型概述

基於谷歌BERT架構的阿拉伯語預訓練模型，特別優化了阿拉伯語方言和社交媒體文本處理能力。

模型特點

推文優化

專門在6000萬條多方言阿拉伯語推文上訓練，優化社交媒體文本處理

擴展詞彙表

新增表情符號和原先缺失的常用詞彙支持

短文本優化

預訓練時單句最大長度設為64，特別適合短文本處理

模型能力

阿拉伯語文本理解

社交媒體文本分析

掩碼詞預測

方言處理

使用案例

社交媒體分析

阿拉伯語推文情感分析

分析阿拉伯語用戶的推文情感傾向

方言內容理解

處理阿拉伯語各地方言的社交媒體內容

文本補全

阿拉伯語文本自動補全

預測被掩碼的阿拉伯語詞彙

如能準確預測'黎巴嫩的首都是[MASK]'中的'貝魯特'

🚀 AraBERTv0.2-Twitter

AraBERTv0.2-Twitter是用於阿拉伯語方言和推文的兩個新模型。它們通過在約6000萬條阿拉伯語推文（從1億條推文中篩選而來）上繼續使用掩碼語言模型（MLM）任務進行預訓練而得到。

這兩個新模型在其詞彙表中添加了表情符號，以及一些最初未包含的常用詞彙。預訓練僅進行了1個輪次，且最大句子長度為64。

AraBERT 是一個基於 Google的BERT架構的阿拉伯語預訓練語言模型。AraBERT使用與BERT-Base相同的配置。更多詳細信息可在 AraBERT論文和 AraBERT Meetup 中找到。

📦 訓練數據集

wikipedia
Osian
1.5B-Arabic-Corpus
oscar-arabic-unshuffled
Assafir（私有）
Twitter（私有）

📊 模型示例

{
  "text": " عاصمة لبنان هي [MASK] ."
}

✨ 主要特性

專為阿拉伯語方言和推文設計，在相關任務上表現更優。
詞彙表中添加了表情符號和常用詞彙，增強了對多樣化文本的處理能力。

📦 其他模型

模型	HuggingFace模型名稱	大小（MB/參數）	預分割	數據集（句子數/大小/單詞數）
AraBERTv0.2-base	bert-base-arabertv02	543MB / 136M	否	2億 / 77GB / 86億
AraBERTv0.2-large	bert-large-arabertv02	1.38G / 371M	否	2億 / 77GB / 86億
AraBERTv2-base	bert-base-arabertv2	543MB / 136M	是	2億 / 77GB / 86億
AraBERTv2-large	bert-large-arabertv2	1.38G / 371M	是	2億 / 77GB / 86億
AraBERTv0.1-base	bert-base-arabertv01	543MB / 136M	否	7700萬 / 23GB / 27億
AraBERTv1-base	bert-base-arabert	543MB / 136M	是	7700萬 / 23GB / 27億
AraBERTv0.2-Twitter-base	bert-base-arabertv02-twitter	543MB / 136M	否	與v02相同 + 6000萬條多方言推文
AraBERTv0.2-Twitter-large	bert-large-arabertv02-twitter	1.38G / 371M	否	與v02相同 + 6000萬條多方言推文

💻 使用示例

基礎用法

from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
  
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")

注意事項

⚠️ 重要提示

該模型是在序列長度為64的情況下進行訓練的，使用超過64的最大長度可能會導致性能下降。

💡 使用建議

建議在對任何數據集進行訓練/測試之前應用預處理函數。當使用“twitter”模型時，預處理器會保留表情符號並將其分隔開。

📖 引用格式

如果你使用了此模型，請按以下格式引用我們： Google Scholar的Bibtex格式有誤（缺少名稱），請使用以下內容：

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

🙏 致謝

感謝TensorFlow研究雲（TFRC）提供免費的Cloud TPU訪問權限，沒有這個項目我們無法完成這項工作。感謝 AUB MIND實驗室成員的持續支持。同時感謝 Yakshof 和Assafir提供數據和存儲訪問權限。還要感謝Habib Rahal（https://www.behance.net/rahalhabib）為AraBERT設計了形象。