albert-xlarge-arabic開源語言模型 - 支持阿語方言文本處理與分析

首頁

Albert Xlarge Arabic

由asafaya開發

ALBERT Xlarge預訓練語言模型的阿拉伯語版本，基於約44億詞進行預訓練，支持現代標準阿拉伯語及部分方言內容。

大型語言模型

Transformers

阿拉伯語#阿拉伯語掩碼預測 #多方言支持 #大規模預訓練

下載量 64

發布時間 : 3/2/2022

模型概述

該模型是ALBERT Xlarge架構的阿拉伯語版本，主要用於掩碼語言模型任務，適用於阿拉伯語文本處理和分析。

模型特點

多源預訓練數據

基於OSCAR阿拉伯語版和維基百科數據，約44億詞的預訓練數據。

方言支持

不僅包含現代標準阿拉伯語，也涵蓋部分方言內容。

TPU訓練優化

使用Google提供的免費TPU v3-8進行訓練，調整了訓練參數以提高效率。

模型能力

阿拉伯語文本理解

掩碼語言模型任務

命名實體識別（NER）

使用案例

自然語言處理

阿拉伯語文本分析

用於分析阿拉伯語文本，理解語義和上下文。

命名實體識別

識別阿拉伯語文本中的命名實體，如人名、地名等。

🚀 阿拉伯語ALBERT Xlarge

阿拉伯語版的ALBERT Xlarge預訓練語言模型，可用於處理阿拉伯語相關的自然語言處理任務，為阿拉伯語的語義理解等工作提供強大支持。

🚀 快速開始

你可以通過安裝 torch 或 tensorflow 以及Huggingface庫 transformers 來使用這些模型。可以按如下方式直接初始化使用：

from transformers import AutoTokenizer, AutoModel

# 加載分詞器
tokenizer    = AutoTokenizer.from_pretrained("kuisailab/albert-xlarge-arabic")

# 加載模型
model   = AutoModelForMaskedLM.from_pretrained("kuisailab/albert-xlarge-arabic")

✨ 主要特性

基於ALBERT Xlarge架構，專為阿拉伯語設計，能更好地處理阿拉伯語的語言特點和語義信息。
預訓練數據豐富，涵蓋了阿拉伯語版的OSCAR語料庫和維基百科數據，提升了模型的泛化能力。

📦 安裝指南

使用這些模型，你需要安裝 torch 或 tensorflow 以及Huggingface庫 transformers。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

# 加載分詞器
tokenizer    = AutoTokenizer.from_pretrained("kuisailab/albert-xlarge-arabic")

# 加載模型
model   = AutoModelForMaskedLM.from_pretrained("kuisailab/albert-xlarge-arabic")

📚 詳細文檔

預訓練數據

模型在約44億個單詞上進行了預訓練：

阿拉伯語版的 OSCAR（未打亂的語料庫版本） - 從 Common Crawl 中過濾而來。
最新的阿拉伯語維基百科轉儲數據。

訓練數據說明：

最終的語料庫版本中包含一些非阿拉伯語單詞，由於去除這些單詞會影響命名實體識別（NER）等任務，因此未從句子中移除。
雖然在預處理步驟中對非阿拉伯語字符進行了小寫處理，但由於阿拉伯語字符沒有大小寫之分，因此模型沒有區分大小寫的版本。
語料庫和詞彙集不限於現代標準阿拉伯語，還包含一些方言阿拉伯語。

預訓練細節

這些模型使用Google ALBERT的GitHub 倉庫在由 TFRC 免費提供的單個TPU v3 - 8上進行訓練。
預訓練過程遵循BERT的訓練設置，並做了一些更改：訓練700萬步，批量大小為64，而不是12.5萬步，批量大小為4096。

模型參數

	albert-base	albert-large	albert-xlarge
隱藏層	12	24	24
注意力頭	12	16	32
隱藏層大小	768	1024	2048

模型結果

有關模型性能的更多詳細信息或其他問題，請參考阿拉伯語ALBERT。

🔧 技術細節

模型基於ALBERT架構，針對阿拉伯語進行了預訓練。在訓練過程中，使用了特定的訓練數據和訓練設置，以適應阿拉伯語的語言特性。通過在大規模的阿拉伯語語料上進行訓練，模型能夠學習到阿拉伯語的語義和語法信息，從而在各種自然語言處理任務中表現出色。

📄 許可證

如果你在工作中使用了這些模型，請按以下方式引用：

@software{ali_safaya_2020_4718724,
  author       = {Ali Safaya},
  title        = {Arabic-ALBERT},
  month        = aug,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.4718724},
  url          = {https://doi.org/10.5281/zenodo.4718724}
}