AraModernBert-Base-V1.0開源阿拉伯語語言模型 - 助力高效處理阿拉伯語內容

首頁

Aramodernbert Base V1.0

由NAMAA-Space開發

AraModernBert是基於ModernBERT架構構建的先進阿拉伯語語言模型，結合了Transformer設計創新與100GB阿拉伯語文本的大規模訓練。

大型語言模型

Transformers

阿拉伯語開源協議:Apache-2.0 #阿拉伯語長文本處理 #跨標記化技術 #8192上下文窗口

下載量 660

發布時間 : 2/1/2025

模型概述

該模型專為阿拉伯語理解設計，適用於文本嵌入、信息檢索、文本分類等多種NLP任務。

模型特點

跨標記化技術

採用跨標記化技術優化MLM任務的嵌入層初始化，提升模型性能

長上下文支持

支持8,192標記的上下文窗口，適合處理長文本

專用阿拉伯語分詞器

使用50,280詞彙量的定製分詞器，專門優化阿拉伯語處理

交替注意力機制

每3層全局注意力+128標記局部窗口的混合注意力架構

模型能力

阿拉伯語文本理解

掩碼語言建模

語義文本相似度計算

文本分類

命名實體識別

使用案例

文本分析

語義文本相似度

計算兩段阿拉伯語文本的語義相似度

STS17: 0.831, STS22: 0.617

文本分類

對阿拉伯語文本進行分類

準確率94.32%，F1分數94.31%

信息檢索

檢索增強生成(RAG)

用於阿拉伯語問答系統的檢索組件

🚀 AraModernBert-base-V1.0

AraModernBert是基於ModernBERT架構構建的先進阿拉伯語模型。該模型結合了最先進的Transformer設計創新，並在100GB阿拉伯語文本上進行了廣泛訓練，在阿拉伯語理解方面取得了重大進展。

🚀 快速開始

以下是使用Transformers庫調用AraModernBert的示例代碼：

from transformers import AutoTokenizer, AutoModel

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

# 編碼文本
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# 獲取嵌入向量
embeddings = outputs.last_hidden_state

掩碼語言模型示例

from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]

outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)

✨ 主要特性

先進架構：基於ModernBERT架構構建，結合了最先進的Transformer設計創新。
大規模訓練：在100GB阿拉伯語文本上進行了廣泛訓練，提升了阿拉伯語理解能力。
定製分詞器：構建了專門的分詞器，詞彙量為50,280個標記，優化了阿拉伯語處理。
長上下文處理：最大位置嵌入為8192，能夠處理長文檔。

📚 詳細文檔

模型描述

AraModernBert是基於ModernBERT架構的先進阿拉伯語模型，代表了阿拉伯語理解的重大進步。它結合了最先進的Transformer設計創新，並在100GB阿拉伯語文本上進行了廣泛訓練。

AraModernBert的開發過程如下：

定製分詞器訓練：構建了專門的分詞器，針對阿拉伯語處理進行了優化，詞彙量為50,280個標記。
跨標記化：使用跨標記化技術，為MLM（掩碼語言模型）最佳初始化嵌入層（更多細節請參閱論文）。
大規模掩碼語言模型訓練：在100GB阿拉伯語文本上對模型進行了訓練。

模型配置

{
  "hidden_size": 768,
  "intermediate_size": 1152,
  "num_attention_heads": 12,
  "num_hidden_layers": 22,
  "max_position_embeddings": 8192,
  "vocab_size": 50280,
  "global_attn_every_n_layers": 3,
  "local_attention": 128,
  "global_rope_theta": 160000.0,
  "local_rope_theta": 10000.0,
  "architectures": ["ModernBertForMaskedLM"],
  "model_type": "modernbert",
  "cls_token_id": 3,
  "mask_token_id": 6,
  "pad_token_id": 5,
  "sep_token_id": 4,
  "unk_token_id": 2
}

預期用途與侷限性

預期用途

AraModernBert可用於廣泛的阿拉伯語自然語言處理任務，包括：

文本嵌入與表示
信息檢索
RAG（檢索增強生成）
文檔相似度
文本分類
情感分析

侷限性和偏差

該模型針對現代標準阿拉伯語進行了優化，在方言阿拉伯語變體或古典阿拉伯語文本上的性能可能會有所不同。
性能可能因領域和專業術語而異。
用戶應注意訓練數據中可能存在的偏差。

評估結果

image/png

1. 語義文本相似度（STS）

我們在STS數據集上對模型進行了微調，以增強語義理解能力：

STS17：0.831
STS22：0.617

注意：針對STS優化的模型將作為單獨的檢查點儘快發佈。

2. 文本分類

我們使用SANAD數據集在多類分類任務上對AraModernBert進行了微調。

總體指標：

AraModernBert：
- 準確率：94.32%
- F1分數：94.31%
- 精確率：94.31%
- 召回率：94.32%

每類性能（AraModernBert）：

類別	精確率	召回率	F1分數	支持度
0	92.13%	92.43%	92.28%	1,849
1	93.63%	93.70%	93.67%	3,937
2	90.70%	90.70%	90.70%	2,075
3	96.30%	93.81%	95.04%	776
4	96.09%	95.84%	95.96%	1,898
5	89.24%	87.99%	88.61%	641
6	98.55%	99.37%	98.96%	3,005

3. 命名實體識別（NER）

該模型在阿拉伯語NER任務上取得了優異的性能：

準確率：90.39%
精確率：0.7357
召回率：0.7442
F1分數：0.7399

模型架構

AraModernBert繼承了ModernBERT的現代架構特性，並添加了跨標記化方法：

22個Transformer層，隱藏維度為768。
交替注意力機制，每3層進行一次全局注意力，局部注意力窗口為128個標記。
旋轉位置嵌入（RoPE），全局注意力的theta值為160000.0，局部注意力的theta值為10000.0。
8192個標記的上下文窗口，能夠處理更長的文檔。
專門的詞彙表，包含50,280個標記，針對阿拉伯語進行了優化。

技術規格

屬性	詳情
基礎架構	ModernBERT
參數數量	約1.49億（基於配置）
上下文長度	8192個標記
詞彙量	50,280
隱藏大小	768
注意力頭數量	12
隱藏層數量	22
中間大小	1152

引用

如果您在研究中使用了該模型，請引用：

@misc{AraModernBERT2025,
  title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
  author={NAMAA},
  year={2025},
  publisher={Hugging Face},
  howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
  note={Accessed: 2025-03-02}
}

致謝

該模型基於Answer.AI和LightOn開發的ModernBERT架構構建。我們感謝他們在僅編碼器模型領域的貢獻，並通過我們新穎的跨標記化方法將他們的工作擴展到阿拉伯語。

@misc{modernbert,
      title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference}, 
      author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
      year={2024},
      eprint={2412.13663},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13663}, 
}

@inproceedings{remy-delobelle2024transtokenization,
    title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
    author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
    booktitle={First Conference on Language Modeling},
    year={2024},
    url={https://openreview.net/forum?id=sBxvoDhvao}
}